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MICK 


日 本 知名 数据 库 工程 师 ， 就 职 于 SI 企 
业 ， 致 力 于 数据 仓库 和 商业 智能 的 开发 。 
日 常 除了 在 其 个 人 主页 “关系 数据 库 的 世 
界 ” 中 分 享 数 据 库 和 SOL 的 相关 技术 信息 
外 ， 还 为 CodeZine ( http://codezine.jp ) 
及 IT 技术 杂志 WEB+DB PRESS 扬 写 相 关 
技术 文章 。 同 时 还 是 Joe Celko《SOL 解 
惑 (第 2 版 ) 》 和 《 SOL 权威 指南 ( 第 4 
版 ) 》 日 文 版 的 译 者 。 


吴 炎 昌 
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发 工作 。2015 年 回国 后 加 入 美 团 点 评 ， 
现任 系统 研发 工程 师 。 爱 好 旅行 、 电 影 ， 
以 及 品尝 各 种 美食 ， 有 一 位 志趣 相投 的 
伴侣 。 
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库 系 统 


FP 级 进 阶 的 数 
























































居 库 工程 师 编写 的 一 


本 SQL 技能 提升 指南 。 




















































































































































































































































































































全 书 可 分 为 两 部 分 , 第 一 部 分 介绍 了 SQL 语言 不 同 寻常 的 使 用 技巧 , 带领 读者 从 SQL 常见 技术 , 比如 
CASE 表 达 式 、 自 连接 、HAVING 子 句 、 外 连接 、 关 联 子 查询 、EXISTS…… 去 探索 新 发 现 。 这 部 分 不 仅 穿 揪 
讲解 了 这 些 技巧 背后 的 逻辑 和 相关 知识 , 而 且 辅 以 丰富 的 示例 程序 , 旨 在 帮助 读者 提升 编程 水 平 ; 第 二 部 
分 着 重 介绍 关系 数据 库 的 发 展 史 , 把 实践 与 理论 结合 起 来 , 则 在 帮助 读者 加 深 对 关系 数据 库 和 SQL 语言 的 
里 解 。 此外, 每 节 末 尾 均 设置 有 练习 题 , 并 在 书 末 提 供 了 解答 , 方便 读者 检验 自己 对 书 中 知识 点 的 掌握 程度 。 
本 书 适 合 具有 半年 以 上 SQL 使 用 经 验 、 已 掌握 SQL 基础 知识 和 技能 、 希 望 提升 自己 编程 水 平 的 读者 阅读 。 
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译 者 序 


我 曾 在 日 本 从 事 多 年 软件 开发 工作 ， 工 作 中 经 常会 跟 各 种 数 扫 
有 的 事情 。 但 是 对 于 SQL 语言 ， 当 时 也 只 是 通过 大 

































































语法 ， 在 工作 : 








只 累 了 一 些 实 








] 的 经 验 而 已 ， 











深入 一 些 的 书 ， 最 好 是 面向 有 























后 来 我 在 书店 遇见 了 MICK 先生 的 这 本 书 ， 翻 看 前 言 ， 尝 试 了 他 提 
很 少 的 几 个 ， 于 是 我 便 认 为 这 本 书 正 是 我 需要 的 ， 当 场 决 定 买 下 了 。 











问题 。 非 常 遗 憾 ， 我 只 能 回答 出 


























几 年 过 去 ， 我 由 于 个 人 原因 回国 了 ， 工 作 中 也 不 再 使 用 


























学 里 的 一 门 讲授 数 扩 
并 没有 进行 过 非常 深入 的 研究 。 于 是 我 便 打 算 找 
定编 程 经 验 的 读者 的 ， 系 统 地 学 习 一 下 。 

















局 库 打交道 ， 编 写 SQL 代码 也 是 常 
居 库 系统 的 课程 了 解 了 基本 的 














本 














8 的 检验 读者 水 平 的 若干 


日 语 ， 便 想 着 借 着 业余 时 间 翻 译 一 些 优 






































秀 的 日 语 技术 书 。 当 图 灵 公 司 的 老师 问 我 是 否 有 意向 翻译 这 本 书 时 ， 我 立刻 就 答应 了 。 当 初回 国 时 











为 了 缩减 行李 ， 我 只 保留 了 几 本 日 语 原版 的 技术 书 ， 这 本 就 是 其 
今 仍 身 在 我 书架 上 的 好 书 ， 当 有 机 会 将 它 翻译 成 中 文 版 时 
































这 本 书 ， 我 认为 是 作者 的 





























| ， 我 实在 没有 什么 理 


j 心 之 作 。 书 中 大 部 分 内 容 都 来 自作 者 记录 自 

















放弃 










































































的 个 人 博客 ， 最 大 的 特点 是 理论 
书包 含 两 部 分 内 容 ， 第 一 部 分 介绍 了 SQL 在 使 用 方 下 
的 内 容 。 第 一 部 分 在 介绍 SQL 的 技巧 时 ， 作 者 并 没有 上 来 就 
问题 或 者 例题 引出 将 要 讨论 的 内 容 ， 在 i 


从 与 实践 相 结合 ， 除 了 

















述 应 该 怎么 做 ， 还 解释 了 其 
ji 的 一 些 技巧 ， 第 二 部 分 介绍 了 关系 数据 库 相 关 






























































的 原理 。 这 种 由 浅 入 深 的 讲述 方式 ， 
作者 一 起 思考 ， 











当初 的 问题 和 背景 ， 作 者 大 量 3 








的 文献 和 言论 ， 并 按 自己 的 理解 给 








自然 而 然 地 掌握 相应 的 思考 方式 。 多 
系数 据 库 诞生 的 历史 背景 及 其 解雇 的 问题 。 关 系数 据 库 已 经 诞生 了 几 十 年 ， 为 了 让 现在 的 读者 理 
| 用 了 关系 数据 库 之 父 EF. Codd 和 关系 数据 库 领 域 权 威 专家 C.J. Date 
了 分 析 与 解释 ， 力 图 使 读者 体会 到 人 人 











中 之 一 。 这 样 一 本 多 年 前 结缘 、 至 


掉 。 





己 实 践 总 结 和 日 常 思 


背后 的 原理 。 














全 




















解 之 后 进一步 扩展 ， 








符合 一 般 的 学 习习 惯 ， 读 者 能 在 轻松 1 











展示 各 种 酷 炫 的 招式 ， 而 是 先 以 简单 的 
| 点 及 面 地 引出 更 深 的 话题 或 者 背后 















































的 心路 历程 。 除 此 之 外 ， 第 二 音 

















认为 非常 精彩 。 





书 中 引用 了 许多 经 典 的 图 





要 的 读者 进一步 研读 。 更 加 可 贵 的 是 ， 在 大 多 数 小 节 的 末 





和 文献 ， 都 在 脚注 




















分 中 作者 还 从 逻辑 学 和 集合 论 的 角度 i 


基础 。 该 部 分 内 容 作 者 充分 发 挥 了 自己 在 相关 领域 的 深 





/大 


E 和 书 末 参 考 文献 中 给 出 了 详 
尾 作 者 都 提出 了 两 三 个 精心 设计 的 小 问题 ， 





二 部 分 在 介绍 关系 数据 库 时 ， 作 者 先 介绍 了 关 












































的 














偷 悦 的 阅读 过 程 ! 


和 大人物 们 在 革新 技术 之 际 
述 了 SQL 和 关系 模型 的 
， 以 深入 浅 出 的 方式 进行 了 阐述 ， 我 








» 跟着 























解 























里 论 








处， 方便 有 需 


@ |/V 译 者 序 











这 些 问题 是 正文 内 容 的 扩展 和 延伸 ， 非 常 利于 读者 巩固 相应 的 知识 点 。 而 且 ， 针 对 这 些 问 题 ， 作 者 
也 给 出 了 详细 的 解答 ， 并 指出 了 读者 容易 犯 的 错误 。 























本 书 推荐 数据 库 工 程 师 、 经 常 需要 和 数据 库 打 交道 的 软件 工程 师 ， 以 及 所 有 希望 提升 SQL 水 
平 的 读者 阅读 。 在 翻译 过 程 中 ， 我 尽力 表达 出 原著 的 意图 ， 但 是 由 于 水 平 有 限 ， 难 免 存在 问题 ， 欢 
迎 读者 批评 指正 。 读 者 在 阅读 中 有 任何 问题 ， 都 可 以 通过 电子 邮件 和 我 取得 联系 (ensho_go@ 

























































































hotmail.com )。 


2017 年 9 月 
于 北京 
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前 言 

编写 本 书 的 目的 在 于 架 起 两 座 桥 梁 : 一 是 让 数据 库 工程 师 从 初级 向 中 级 进 阶 的 桥梁 ， 由 在 帮助 
初级 工程 师 提升 自己 ， 二 是 理论 (原理) 和 实践 之 间 的 桥梁 。 这 里 所 说 的 “初级 ” 有 具体 是 指 已 经 掌 
握 了 SQL 的 基础 知识 和 技能 ， 具 有 半年 到 一 年 左右 的 使 用 经 验 这 种 水 平 。 

我 们 来 做 一 个 测试 ， 帮 助 大 家 了 解 一 下 自己 处 于 何 种 水 平 。 下 面 有 10 个 问题 ， 请 回答 Yes 或 No。 

1. 没有 在 聚合 函数 中 使 用 过 casE 表达 式 。 

2. 想象 不 出 自 连 接 是 如 何 工作 的 。 

3. 感觉 HAVING 子 句 不 是 很 常用 。 

4. 感觉 IN 比 EXISTS 好 用 ， 所 以 更 喜欢 用 IN。 

5. 听 到 布尔 类 型 ， 脑 海里 浮现 出 的 只 有 true 和 false。 

6. 设计 表 的 时 候 不 加 NOT NULL 的 约束 。 

7. SQL 全 部 用 大 写字 母 或 全 部 用 小 写字 母 来 写 。 

8. 不 能 用 一 句 话说 出 GROUP BY 和 PARTITION BY 的 区 别 。 

9. 不 知道 SQL 里 的 高 阶 函数 的 名 字 。 


10. 试 着 读 过 Joe Celko 的 《SQL 权威 指南 )” 和 《SQL 解 惑 (第 2 版 )》2, 但 








完 ( 或 者 压根 儿 没 有 读 过 )。 














大 家 的 回 


一 名 高 级 工程 师 的 道路 吧 (也 许 只 





答 如 何 呢 ? 如 果 全 部 都 加 
有 本 书 3-2 节 “ 人 参考 文献 ”值得 略 读 一 下 )。 相 反 ， 如 果 
的 , 相信 大 家 读 后 一 定 会 有 收获 。 





回答 了 Yes, 局 


5 么 本 书 将 照 亮 大 家 的 前 进 之 路 
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是 多 么 新 潮 的 东西 








是 ， 接 下 来 要 说 的 内 容 可 

















台 马 
能 会 











这 了 


让 大 家 觉得 有 点 前 后 矛盾 
,而 是 遵循 标准 SQL 的 非常 普通 的 技术 。 关 于 这 
CASE 表达 式 、 自 连接 、HAVING 子 句 、 外 连接 、 关 联 子 查询 、EXISTS 
常 工作 中 经 常用 到 的 技术 。 





























E 是 编写 本 书 的 





























点 ,相信 扫 一 眼目 录 你 就 会 明 
这 些 都 是 数据 库 工程 昨 





是 感觉 太 难 而 没 能 


读 


答 了 No， 那 很 好 ， 不 要 担心 什么 ， 请 合 上 本 书 ， 立 刻 踏 上 成 为 
半 以 上 都 


。 因 为 ， 这 本 书 即将 介绍 的 技术 绝 不 


白 。 
日 

















@D 原 书 名 为 Joe Celko's SOL for Smarties: Advanced SOL Programming， 本 书 共有 五 版 。 国 内 引进 了 第 4 版 ， 
书 名 为 《SQL 权威 指南 (第 4 版 ))， 朱 族 等 译 ， 人民 邮电 出 版 社 ，2013 年 。 一 一 编者 注 
@) 米 全 喜 译 ， 人 民 邮 电 出 版 社 ，2008 年 4 月 。 一 一 编者 注 


如 -全 > 
“Tb 


NY 














所 的 角度 把 光照 向 这 些 “并 没有 什么 特别 的 、 谁 都 知道 的 技术 ” 
个 一 直 以 来 都 被 认为 平淡 无 奇 的 关系 数 







































































@ Vi 前 言 
编写 本 书 的 目的 就 是 从 
们 迄今 都 没有 被 看 到 的 一 面 。 相 信 大 家 读 完 本 书 时 ， 会 从 居 
据 库 的 世界 里 ， 看 到 一 些 不 一 样 的 光辉 。 
下 面 ， 就 让 我 们 立刻 前 往 博 大 精深 的 关系 数据 库 的 世界 ， 开 始 探 险 之 旅 吧 。 








※ 本 书 中 的 URL 等 信息 可 能 会 有 变化 。 


声明 
※ 本 书 出 版 之 际 , 我 们 力求 准确 闸 述 , 但 是 翔 泳 社 、 原 书 作者 、 人 民 邮 电 出 版 社 和 译 者 均 不 对 内 容 作 任何 保 
证 , 对 于 由 本 书 内 容 和 示例 代码 造成 的 一 切 后 果 , 不 承担 任何 责任 。 
※ 本 书 中 的 示例 代码 和 脚本 ,以 及 执行 结果 页 面 都 是 基于 特定 环境 的 参考 示例 。 


商品 名 分 别 是 相关 公司 的 商标 或 注册 商标 。 


※ 本 书 中 的 公司 名 
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这 用 SQL 进行 行 与 行 之 间 的 比较 
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阅读 本 书 时 的 注意 事项 





























e@ 本 书 中 出 现 的 SQL 语句 都 是 尽 可 能 按照 标准 SQL (SQL-92/99/2003) 来 写 的 ， 对 于 依赖 具体 数据 库 实 
现 的 地 方 ， 本 书 会 有 明确 的 说 明 。 

e@ 按照 标准 SQL 的 要 求 ， 指 定 表 的 别名 的 关键 字 AS 也 应 该 写 上 ， 但 本 书 省 略 了 。 这 是 为 了 避免 SQL 程序 

在 Oracle 数 据 库 中 出 错 〈 其 他 数据 库 里 也 一 样 ， 省 略 了 就 不 会 出 错 ) 。 

@ RRNK、ROW_NUMBER 这 样 的 窗口 函数 (OLAP 函 数 ) 目前 还 不 能 在 MySQL 数 据 库 中 运行 。 

正文 里 的 代码 在 以 下 数据 库 中 测试 运行 过 。 

。Oracle 10g 































































































eSQL Server 2005 

eDB2 9.1 

® PostgreSQL 9.6 

。 MySQL 5.0 

正文 里 提 到 Oracle、MySQL 等 数据 库 而 未 指定 版 本 时 ， 请 参照 上 述 版 本 。 

e@ 关于 用 于 创建 示例 用 表 的 SQL 语句 和 示例 代码 等 ， 请 参考 如 下 网 站 。 
http:Wwww.ituring.com.cn/book/1813《〈 请 点 击 “ 随 书 下 载 ” 下 载 中 文 版 相关 资料 ) 
http:/www.geocities.jp/mickindex/database/db_support_ sinan.html〈 作 者 MICK 的 日 文 网 站 ) 
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芝 在 SQL 里 表达 条 件 分 支 

CASE 表达 式 是 SQL 里 非常 重要 而 且 使 用 起 来 非常 便利 的 技术 ， 我 们 应 该 学 会 用 它 来 描述 条 件 分 支 。 
本 节 将 通过 行列 转换 、 已 有 数据 重 分 组 ( 分 类 )、 与 约束 的 结合 使 用 、 针 对 聚合 结果 的 条 件 分 支 等 例题 ， 
来 介绍 CASE 表达 式 的 用 法 。 





CASE 表达 式 是 从 SQL-92 标准 开始 被 引入 的 。 可 能 因为 它 是 相对 较 新 
的 技术 ， 所 以 尽管 使 用 起 来 非常 便利 ， 但 其 真正 的 价值 却 并 不 怎么 为 人 所 
知 。 很 多 人 不 用 它 ， 或 者 用 它 的 简略 版 函数 ， 例 如 DECODE (Oracle)、IF 
(MySQL) 等 。 然 而 ， 正 如 Joe Celko 所 说 ，cASE 表达 式 也 许 是 SQL-92 
标准 里 加 入 的 最 有 用 的 特性 。 如 果 能 用 好 它 ， 那 么 SQL 能 解决 的 问题 就 
会 更 广泛 ， 写 法 也 会 更 加 漂亮 。 而 且 ， 因 为 CASE 表达 式 是 不 依赖 于 具体 
数据 库 的 技术 ， 所 以 可 以 提高 SQL 代码 的 可 移植 性 。 这 里 强烈 推荐 大 家 


















































































































































改 用 casE 表达 式 ， 特 别 是 使 用 DECODE 函数 的 Oracle 用 户 @。 

是 oracl 很 熟悉 的 a i 、 
rn 本 节 ， 我 们 将 通过 具体 的 例题 来 学 习 优点 众多 的 cas 表达 式 。 
表达 式 的 地 方 。 

* 它 是 Oracle 独 有 的 函数 ， 所 以 国 
不 具有 可 移植 性 。 Fr" ASE 表达 式 概述 

分 支 数 最 大 支持 127 个 ( 参数 男 CASE 表达 式 概述 = 一 mm 一 mm 一 一 
Dy 首先 我 们 来 学 习 一 下 基本 的 写法 ，casE 表达 式 有 简单 cASE 表达 式 


兽 加 ， 代 码 会 变 得 。” (simple case expression) 和 搜索 CASE 表达 式 (searched case expression ) 
吊 难 其 o 
* 表达 能 力 较 弱 。 具 体 来 说 , 参 ”两 种 写法 ， 它 们 分 别 如 下 所 示 。 
数 里 不 能 使 用 谓词 ， 也 不 能 说 
套子 查询 。 





























图 CASE 表达 式 的 写法 
-- 简单 CASE 表达 式 


CASE sex 
WHEN '1' THEN ' 男 ' 
WHEN '2' THEN ' 女 ' 
ELSE ' 其 他 ' END 














-- 搜索 CAsE 表达 式 

CASE WHEN sex = !1' THEN ' 男 ' 
WHEN sex = '2' THEN ' 女 ' 

ELSE ' 其 他 ' END 
































这 两 种 写法 的 执行 结果 是 
么 结果 为 男 ， 如 果 是 '2'， 那 么 
法 简单 ， 但 






































Es 











能 实现 的 事情 比较 有 限 。 简 和 


1-1 CASE 表 达 式 





3 @ 


相同 的 ,“sex” 列 《字段 ) 如 果 是 '1'， 那 
结果 为 女 。 简 单 cASE 表达 式 正 如 其 名 ， 写 









































和 CASE 表达 式 能 写 的 条 件 ， 搜 索 











CASE 表达 式 也 能 写 ， 所 以 本 书 基 本 上 采用 搜索 cASE 表达 式 的 写法 。 











我 们 在 编写 SQL 语句 的 





时 候 需 要 六 


大， 


在 发 现 为 真 的 WHEN 子 句 时 ， 





CASE 表达 式 的 真 假 值 判断 就 会 中 止 ， 而 剩余 的 WHEN 子 句 会 被 忽略 。 为 了 
































避免 引起 不 必要 的 混乱 ， 使 









































围 剩余 的 WHEN 子 句 被 忽略 的 写法 示例 
-- 例如 ， 这 样 写 的 话 ， 结 果 里 不 会 出 现 “ 第 二 ” 
CASE WHEN col 1 IN ('a', 'b') THEN ' 第 一 ' 
WHEN col 1 IN ('a') THEN ! 第 二 ， 
ELSE ' 其 他 ' END 
此 外 ， 使 用 











注意 事项 1: 统一 各 分 支 返 


ED 




















达 式 里 各 个 分 支 返回 的 数据 类 型 是 
分 支 返 回 数值 型 的 写法 是 不 正确 的 

















Ta 














注意 事项 2: 不 要 忘 了 写 END 
使 用 casE 表达 式 的 时 候 ， 


时 ;2 


取 合 


] WHEN 子 句 时 要 注意 条 件 的 排他 性 。 





不 


o 

















然 忘 记 写 时 程序 会 返回 比较 容易 天 


E 解 的 
































口 旦 和 
但 是 ， 感觉 


起 的 ， 所 以 请 一 定 注意 一 下 。 





己 写 得 没 问 题 ， 而 执行 时 却 出 错 的 情况 大 多 是 





否 一 致 。 某 个 分 支 返 回 字 符 型 ， 





] CASE 表达 式 的 时 候 ， 还 需要 注意 以 下 几 点 。 





回 的 数据 类 型 


虽然 这 一 点 无 需 多 言 ， 但 这 里 还 是 要 强调 一 下 : 




















易 出 现 的 语法 错误 是 忘记 写 END。 虽 

















普 误 消 息 ， 不 算 多 么 致命 的 错误 。 
这 个 原 引 

















大 
































注意 事项 3: 养 成 写 ELSE 子 句 的 习惯 








与 END 不 同 , ELSE 子 句 是 可 选 




















此 





的 , 不 写 也 不 会 出 错 


。 不 写 BLSE 子 句 时 ， 
弓 











CASE 表达 式 的 执行 结果 是 NULL。 但 是 不 写 可 能 会 造成 “语法 没有 错误 ， 





后 














@ 4 


注 @ 





日 本 的 省 级 行政 单位 有 都 、 道 


府 、 县 ， 





包含 一 都 ( 东京 都 入 


二 府 ( 京都 府 和 大 阪 府 入 一 


( 北海 道 ) 和 诸多 的 县 ， 


道 府 县 。 多 


统称 都 
个 较 近 的 县 被 划 归 到 





一 个 地 区 











注 @ 


， 如 关东 地 区 
区 等 ， 类 似 我 国 的 华北 地 区 、 华 
南 地 区 等 概念 。 





、 九 州 地 

















一 一 译 者 注 
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果 却 不 对 ”这 种 不 易 妃 查 原因 的 奈 烦 ， 


























是 在 结果 可 以 为 NULL 的 情 
清楚 地 看 到 这 种 条 件 


























m4 














月 


况 下 )。 养 成 这 


以 最 好 明确 地 写 上 ELSE 子 句 (即便 

















文 样 的 习惯 后 ， 我 们 从 代码 上 就 可 以 














下 会 生成 NULL, 而 











将 来 代码 有 修改 时 也 能 减少 失误 。 








友 | 将 已 有 编号 方式 转换 为 新 的 方式 并 统计 











在 进行 非 定制 化 统计 时 ， 我 们 经 常会 遇 到 将 已 














编号 方式 转换 为 男 外 

















一 种 便于 分 析 的 方式 并 进行 统计 的 需求 。 








列 如 ， 现 在 有 一 























这 种 编号 方式 来 统计 都 道 府 














发 按照 “21: 北海 道 


1 8 人 口 的 表 ， 我 们 需要 


'、'2: 青森 、……、“47: 冲绳 和 
以 东北 、 关 东 、 九 州 























等 地 区 为 单位 来 分 组 ， 并 统计 和 人口 

















数量 。 

















L 体 来 说 ， 就 是 统计 下 表 PopTbl 














中 的 内 容 ， 得 出 如 右 表 “ 统 计 结 果 ” 所 示 的 结果 。 


图 统计 数据 源 表 PopTbl 
pref_name ( 县 名 ) 





population ( 人 口 


) 











“统计 结果 ”这 张 表 中 ,“ 四 




















到 ”对 应 的 是 


岛 、 香 川 





州 ” 对 应 的 
网 、 佐 贺 、 











、 爱 媛 、 高 知 ”， 


是 表 PopTb] 中 的 “ 德 
“ 九 
是 表 PopTb1 中 的 “ 福 
长 崎 "。 一 一 编者 注 



































大 家 会 怎么 实现 呢 ? 定义 一 个 包含 “地 区 
但 是 这 样 一 来 ， 需 要 添加 的 列 的 数量 
很 难 动态 地 修改 。 









































为 了 便于 理 外 








| 

















号 转换 成 地 区 编号 (1) 

CASE pref name 

WHEN ' 德 岛 ' THEN ' 
WHEN ' 香 川 ' THEN ' 
WHEN ' 爱 媛 ' THEN ' 
WHEN ' 高 知 ' THEN ' 





和 有 具 编 
SELECT 















































图 统计 结果 @ 












































编号 ” 列 的 视图 是 





一 种 做 法 ， 











将 等 同 于 统计 对 象 的 编号 个 数 ， 而 且 


而 如 果 使 用 cAsE 表达 式 , 则 用 如 下 所 示 的 一 条 SQL 语句 就 可 以 完成 。 
,这 里 用 县 名 (pref name) 代 


编号 作为 GROUP BY 的 列 。 

















1-1 _ CASE 表达 式 一 一 一 一 


WHEN ' 福 冈 ' THEN ' 九 州 ， 
WHEN ' 佐 贺 ' THEN ' 九 州 ， 
WHEN ' 长 崎 ' THEN ' 九 州 ， 
ELSE ' 其 他 ' END AS district, 
SUM (population) 
FROM PopTbl 
GROUP BY CASE pref name 
WHEN ' 德 岛 ' THEN ' 四 国 
WHEN ' 香 川 ' THEN ' 四 国 
WHEN ' 爱 媛 ' THEN ' 四 国 ， 
下 | 
| 
| 
| 















































WHEN ' 高 知 ' THEN ' 四 匡 
WHEN ' 福 冈 ' THEN ' 九 州 
WHEN ' 佐 锅 ' THEN ' 九 州 
WHEN ' 长 崎 ' THEN ' 九 州 
ELSE ' 其 他 ' END; 












































这 上 




















子 句 里 。 需 要 注意 的 是 ， 如 果 对 转换 前 的 列 “pref_name” 


























有 的 关键 在 于 将 SELECT 子 句 里 的 CASE 表达 式 复 制 到 GROUP BY 


进行 GROUP 


BY, 就 得 不 到 正确 的 结果 (因为 这 并 不 会 引起 语法 错误 , 所 以 容易 被 忽视 )。 
同样 地 ， 也 可 以 将 数值 按照 适当 的 级 别 进行 分 类 统计 。 例 如 ， 要 按 人 















































写 SQL 语句 。 








-- 按 人 口 数量 等 级 划分 都 道 府 县 
SELECT CASE WHEN population < 100 THEN 'O01' 
WHEN population >= 100 AND population < 200 
WHEN population >= 200 AND population < 300 
WHEN population >= 300 THEN '04' 
ELSE NULL END AS pop class, 
COUNT(*) AS cnt 
FROM PopTbl 
GROUP BY CASE WHEN population < 100 THEN '01' 
WHEN population >= 100 AND population < 200 
WHEN population >= 200 AND population < 300 
WHEN population >= 300 THEN '04' 
ELSE NULL END; 














popedasese ent 


口 数量 等 级 (pop_class) 查询 都 道 府 县 个 数 的 时 候 ， 就 可 以 像 下 面 这 样 








IT 














TNO OY 
THENI OS 


THEN MO2Y 
THENIIOSY 
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这 个 技巧 非常 好 用 。 不 过 ， 必 须 在 SELECT 子 句 和 GROUP BY 子 句 这 
两 处 写 一 样 的 CASE 表达 式 ， 这 有 点 儿 麻 烦 。 后 期 需要 修改 的 时 候 ， 很 容 
易 发 生 只 改 了 这 一 处 而 忘掉 改 男 一 处 的 失误 。 

所 以 ， 如 果 我 们 可 以 像 下 面 这 样 写 ， 那 就 方便 多 了 。 
























































-- 把 县 编号 转换 成 地 区 编号 (2) : 将 CASE 表达 式 归纳 到 一 处 
SELECT CASE pref name 
WHEN ' 德 岛 ' THEN ' 四 

WHEN ' 香 川 ' THEN ' 四 

0 

0 























| 玉 | 1 

| 玉 | 1 
WHEN ' 爱 媛 ' THEN ' 四国 ' 
WHEN ' 高 知 ' THEN ' 四 国 ' 
' 

' 

' 




















WHEN ' 福 冈 ' THEN ' 九 类 
WHEN ' 佐 贺 ' THEN ' 九州 
WHEN ' 长 崎 ' THEN ' 九 放 
ELSE ' 其 他 ' END AS district, 
SUM (population) 
FROM PopTbl 
GROUP BY district; 均一 一 一 | SROUP BY 子 句 里 引用 了 SELECT 子 句 中 定义 的 别名 









































没 错 ， 这 里 的 SRoUP BY 子 句 使 用 的 正 是 SELECT 子 句 里 定义 的 列 的 
别称 一 一 Gistrict。 但 是 严格 来 说 ， 这 种 写法 是 违反 标准 SQL 的 规则 的 。 
因为 GROUP BY 子 句 比 SELECT 语句 先 执 行 ， 所 以 在 GROUP BY 子 句 中 引 
在 SELECT 子 句 里 定义 的 别称 是 不 被 允许 的 。 事 实 上 ， 在 Oracle、DB2、 
SQL Server 等 数据 库 里 采用 这 种 写法 时 就 会 出 错 。 

不 过 也 有 支持 这 种 SQL 语句 的 数据 库 ， 例 如 在 PostgreSQL 和 MySQL 
中 ， 这 个 查询 语句 就 可 以 顺利 执行 。 这 是 因为 ， 这 些 数据 库 在 执行 查询 语 
人 句 时 ， 会 先 对 SELECT 子 句 里 的 列表 进行 扫描 ， 并 对 列 进行 计算 。 不 过 医 
为 这 是 违反 标准 的 写法 ， 所 以 这 里 不 强烈 推荐 大 家 使 用 。 但 是 ， 这 样 写 出 
来 的 SQL 语句 确实 非常 简洁 ， 而 且 可 读 性 也 很 好 。 
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进行 不 同 条 件 的 统计 是 cASE 表达 式 的 著名 用 法 之 一 。 例 如 ， 我 们 需 
要 往 存 储 各 县 人 口 数量 的 表 PopTbl 里 添加 上 “性 别 ” 列 ， 然 后 求 按 性 别 、 
县 名 汇总 的 人 数 。 具 体 来 说 ， 就 是 统计 表 PopTbl2 中 的 数据 ， 然 后 求 出 如 
表 “ 统 计 结果 ”所 示 的 结果 。 
















































































1-1 CASE 表 达 式 





图 统计 源 表 PopTbl2 力 统 计 结 果 


pref_name (县 名 ) sex ( 性 别 ) population ( 人 口 ) 
































东京 













































































通常 的 做 法 是 像 下 面 这 样 ,通过 在 WHERE 子 句 里 分 别 写 上 不 同 的 条 件 ， 



































然后 执行 两 条 SQL 语句 来 查询 。 


图 示例 代码 3 


人 

SELECT pref name, 

SUM (population) 
FROM PopTb12 

WHERE sex = '1' 

GROUPIBYDret namey 


























-- 女性 人 

SELECT pref name, 

SUM (population) 
FROM PopTb12 

WHERE sex = 4231 

GROUP BY pret lnamey 
































最 后 需要 通过 宿主 语言 或 者 应 用 程序 将 查询 结果 按 列 展开 。 如 果 使 用 
























































UNION， 只 用 一 条 SQL 语句 就 可 以 实现 ， 但 使 用 这 种 做 法 时 ， 
































作 量 并 没 





7 @ 
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有 减少 ，SQL 语句 也 会 变 得 很 长 。 而 如 果 使 用 cAsE 表达 式 ， 下 面 这 一 条 
简单 的 SQL 语句 就 可 以 搞定 。 





SEIECI Dretename 
= EX 
SUM( CASE WHEN sex = '1' THEN population ELSE 0 END) AS cnt m, 
== 次 电信 
SUM( CASE WHEN sex = '2' THEN population ELSE 0 END) AS cnt f 
FROM PopTb1l2 
GROUB BY Pronames 












































上 面 这 段 代码 所 做 的 是 ， 分 别 统 计 每 个 县 的 “男性 ”( 即 '1') 人 数 和 
“女性 ”( 即 '2') 人 数 。 也 就 是 说 , 这 里 是 将 “ 行 结构 ”的 数据 转换 成 了 “ 列 
结构 ”的 数据 。 除 了 suUM，CoUNT、AVG 等 聚合 函数 也 都 可 以 用 于 将 行 结 
构 的 数据 转换 成 列 结构 的 数据 。 

这 个 技巧 可 贵 的 地 方 在 于 ， 它 能 将 SQL 的 查询 结果 转换 为 二 维 表 的 
格式 。 如 果 只 是 简单 地 用 GROUP BY 进行 聚合 ， 那 么 查询 后 必须 通过 宿主 
语言 或 者 Excel 等 应 用 程序 将 结果 的 格式 转换 一 下 , 才能 使 之 成 为 交叉 表 。 
看 上 面 的 执行 结果 会 发 现 ， 此 时 输出 的 已 经 是 侧 栏 为 县 名 、 表 头 为 性 别 的 
交叉 表 了 。 在 制作 统计 表 时 ， 这 个 功能 非常 方便 。 如 果 用 一 句 话 来 形容 这 
个 技巧 ， 可 以 这 样 说 : 

新 手 用 WHERE 子 句 进行 条 件 分 支 ， 高手 用 SELECT 子 句 进行 条 件 
分 文 5 

如 此 好 的 技巧 ， 请 大 家 多 使 用 。 





























































































































































































































其 实 ，CRAsE 表达 式 和 cHECK 约束 是 很 般配 的 一 对 组 合 。 也 许 有 很 多 
数据 库 工程 师 不 怎么 用 cHECK 约束 ， 但 是 一 旦 他 们 了 解 了 cHECK 约束 和 
CASE 表达 式 结合 使 用 之 后 的 强大 威力 ， 就 一 定 会 跃跃欲试 的 。 

假设 某 公 司 规定 “女性 员工 的 工资 必须 在 20 万 日 元 以 下 ”， 而 在 这 个 
公司 的 人 事 表 中 ， 这 条 无 理 的 规定 是 使 用 cHECK 约束 来 描述 的 ， 代 码 如 下 
所 示 。 





































































































1-1 CASE 表 达 式 





CONSTRAINT check salary CHECK 
( CASE WHEN sex = '2' 
THEN CASE WHEN salary <= 200000 


THEN 1 ELSE 0 END 
ELSE 1 END = 1 ) 
































在 这 段 代 码 里 ，cCASE 表达 式 被 能 入 到 cHECK 约束 里 ， 描 述 了 “如 果 
性 员工 ， 则 工资 是 20 万 日 元 以 下 ”这 个 命题 。 在 命题 逻辑 中 ， 该 命 
题 是 叫 作 蕴含 式 (conditional〉 的 逻辑 表达 式 ， 记 作 P 一 Q。 

这 里 需要 重点 理解 的 是 列 含 式 和 导 辑 与 〈logical product) 的 区 别 。 逻 
辑 与 也 是 一 个 逻辑 表达 式 ， 意 思 是 “P 且 Q” 记 作 P 人 AQ。 用 逻辑 与 改 
写 的 CHECK 约束 如 下 所 示 。 





ft 
愉 

































































CONSTRAINT check salary CHECK 
(Sexe oAND salarny .2000 

















当然 ， 这 两 个 约束 的 程序 行为 不 一 样 。 究 竟 哪 里 不 一 样 呢 ? 请 先 思 
看 下 面 的 答案 和 解释 。 










































































如 果 在 CHECK 约束 里 使 用 逻辑 与 ， 该 公司 将 不 能 雇佣 男性 员工 。 而 如 果 使 用 
蕴含 式 ， 男 性 也 可 以 在 这 里 工作 。 


要 想 让 逻辑 与 P A Q 为 真 ， 需 要 命题 P 和 命题 Q 均 为 真 ， 或 者 一 个 为 真 且 另 

个 无 法 判定 真 假 。 也 就 是 说 ， 能 在 这 家 公司 工作 的 是 “性 别 为 女 且 工资 在 20 万 

日 元 以 下 ”的 员工 ， 以 及 性 别 或 者 工资 无 法 确定 的 员工 ( 如 果 一 个 条 件 为 假 ， 那 
么 即使 另 一 个 条 件 无 法 确定 真 假 ， 也 不 能 在 这 里 工作 )。 

而 要 想 让 蕴含 式 P 一 OQ 为 真 ， 需 要 命题 P 和 命题 Q 均 为 真 ， 或 者 P 为 假 ， 

或 者 P 无 法 判定 真 假 。 也 就 是 说 如 果 不 满足 "是 女性 ”这 个 前 提 条 件 ， 则 无 需 考 

虑 工资 约束 。 




















































































































































































































































































































请 参考 下 面 这 个 关于 逻辑 与 和 蕴含 式 的 真 值 表 。U 是 SQL 中 三 值 逻 
辑 的 特有 值 unknown 的 缩写 (关于 三 值 逻 辑 ，1-3 节 将 详细 介绍 )。 
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Oe 
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elmIlEeEl nlnmlnlcelnldld 
> 
BD 
































clT7Ti-icilT7T|-|lc|l7|-— 
cliclT7T|IJiclT|Iio 
































如 上 表 所 示 ， 强 含 式 在 员工 性 别 不 是 女性 (或 者 无 法 确定 性 别 ) 的 时 
候 为 真 ， 可 以 说 相 比 逻辑 与 约束 更 加 宽松 。 

















恩 j 在 UPDATE 语句 里 进行 条 件 分 支 


下 面 思 考 一 下 这 样 一 种 需求 : 以 某 数值 型 的 列 的 当前 值 为 判断 对 象 ， 
ee 这 里 的 问题 是 ,此 时 UPDATE 操作 的 条 件 会 有 多 个 分 支 。 
例如 ， 我 们 通过 下 面 这 样 一 张 公 司 人 事 部 的 员工 工资 信息 表 Salaries 来 看 
一 下 这 种 情况 。 

























































































转 Salaries 


name salary 

300 000 
270 000 
220 000 
290 000 
































假设 现在 需要 根据 以 下 条 件 对 该 表 的 数据 进行 更 新 。 
1. 对 当前 工资 为 30 万 日 元 以 上 的 员工 ， 降 新 10%。 


2. 对 当前 工资 为 25 万 日 元 以 上 是 不满 28 万 日 元 的 员工 ， 加 薪 20%。 
按照 这 些 要 求 更 新 完 的 数据 应 该 如 下 表 所 示 。 












































1-1 CASE 表 达 式 





name salary 
相 田 270 000 
~ 夺 ”| 324 000 


EE 


乍 一 看 ， 分 别 执行 下 面 两 个 UPDATE 操作 好 像 就 可 以 做 到 ， 但 这 样 的 
结果 却 是 不 正确 的 。 






































= 全 

UPDATE Salaries 

Sel salary Salarny + 09 
WHERE salary >= 300000; 


-条 件 2 
UPDATE Salaries 

Sersalary salary * 12 

WHERE salary >= 250000 AND salary < 280000; 




















我 们 来 分 析 一 下 不 正确 的 原因 。 例 如 这 里 有 一 个 员工 ， 当 前 工资 是 
30 万 日 元 , 按 “ 条 件 1” 执 行 UPDATE 操作 后 , 工资 会 被 更 新 为 27 万 日 元 ， 
日 继 续 按 “条 件 2” 执 行 UPDATE 操作 后 ， 工 资 又 会 被 更 新 为 32.4 万 日 元 。 
这 样 ， 本 来 应 该 被 降 薪 的 员工 却 被 加 薪 了 2.4 万 日 元 。 
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name salary 





324 000 错误 的 更 新 
324 000 
220 000 
290 000 












































这 样 的 结果 当然 并 非 人 事 部 所 愿 相 田 的 工资 必须 被 准确 地 降 为 
27 万 日 元 。 问 题 在 于 ， 第 一 次 的 UPDATE a “当前 工资 ”发 生 
了 变化 ， 如 果 还 拿 它 当 作 第 二 次 UPDATE 的 判定 条 件 ， 结 果 就 会 不 准确 。 
然而 ， 即 使 将 两 条 SQL 语句 的 执行 顺序 颠倒 一 下 ， 当 前 工资 为 27 万 日 元 
的 员工 ， 其 工资 的 更 新 结果 也 会 出 现 问题 。 为 了 避免 这 些 问题 ， 准 确 地 表 
达 出 可 和 恶 的 人 事 部 长 的 意图 ， 可 以 像 下 面 这 样 用 casE 表达 式 来 写 SQL。 
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-- 用 CASE 表达 式 写 正确 的 更 新 操作 
UPDATE Salaries 





SET salary = CASE WHEN salary >= 300000 


THENe Soany O09 





THENI Saary ,12 
ELSE salary END; 


WHEN salary >= 250000 AND salary < 280000 




















这 条 SQL 语句 不 仅 执行 结果 正确 ， 而 且 因为 只 需 执行 











度 也 更 快 。 这 样 的 话 ， 人 事 部 长 就 会 满意 











需要 注意 的 是 ，SQL 语句 最 后 一 行 的 ELSE salary 非常 重要 ， 必 须 
写 上 。 因 为 如 果 没有 它 ， 条 件 1 和 条 件 2 都 不 满足 的 员工 的 工资 就 会 被 更 
新 成 NULL。 这 一 点 与 CASE 表达 式 的 设计 有 关 ， 
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了 吧 ? 


























式 的 时 候 我 们 就 已 经 了 解 到 , 如果 cASE 表达 式 昌 



































次 ， 所 以 速 


在 刚 开始 介绍 cASE 表达 
有 没有 明确 指定 ELSE 子 句 ， 


执行 结果 会 被 默认 地 处 理 成 ELSE NULL。 现 在 大 家 明白 笔者 最 开始 强调 使 
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明 cASE 表达 式 时 要 习惯 性 地 写 上 ELSE 子 句 的 理由 了 吧 ? 





























这 个 技巧 的 应 用 范围 很 广 。 例如， 可 














果 使 用 CasE 表达 式 ，1 次 就 可 以 做 到 。 


SomeTable 




















以 用 它 简单 地 完成 主键 值 调 换 这 
种 繁重 的 工作 。 通 常 ， 当 我 们 想 调 换 主键 值 a 和 ? 时 ， 需 要 将 主键 值 临时 
转换 成 菜 个 中 间 值 。 使 用 这 种 方法 时 需要 执行 3 次 UPDATE 操作 ， 但 是 如 





























p_key (主键 ) col_1 (第 1 列 ) col 2 (第 2 列 ) 














如 果 在 调换 上 表 的 主键 值 a 和 bb 时 不 用 casE 表达 式 ， 则 需要 像 下 





这 样 写 3 条 SQL 语句 。 


--1. 将 a 转换 为 中 间 值 a 
UPDATE SomeTable 
seET "pakey ="d) 
WHERE P key = 'a'; 





--2. 将 b 调换 为 a 
UPDATE SomeTable 
spTe pkey = a 
































1-1 CASE 表 达 式 
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WHERE P key = 'b'; 


--3. 将 a 调 换 为 b 

UPDATE SomeTable 
SETpIkey = 

WHERE P_ key = 'd'; 




















像 上 面 这 样 做 ， 结 果 确 实 没 有 问题 。 只 是 ， 这 里 没有 必要 执行 3 次 
UPDATE 操作 ， 而 且 中 间 值 a 是 否 总 能 使 用 也 是 问题 。 而 如 果 使 用 casE 表 
达 式 ， 就 不 必 担 心 这 些 ，1 次 就 可 以 完成 调换 。 



























































-- 用 CASE 表达 式 调换 主键 值 
UPDATE SomeTable 
SET p key = CASE WHEN p key = 'al 

EHENO No 
WHEN P_key = 'b' 
THEN 'a' 
ELSE p_key END 

WHERE Eey EN (en 














显而易见 ， 这 条 SQL 语句 按照 “如 果 是 a 则 更 新 为 b， 如 果 是 b 则 
更 新 为 a” 这 样 的 条 件 分 支 进行 了 UPDaTE 操作 。 不 只 是 主键 ， 唯 一 键 的 
调换 也 可 以 用 同样 的 方法 进行 。 本 例 的 关键 点 和 上 一 例 的 加 薪 与 降 薪 一 样 ， 
即 用 casE 表达 式 的 条 件 分 支 进行 的 更 新 操作 是 一 气 呵 成 的 ， 因 此 可 以 避 























































































































注 @ 免 出 现 主键 重复 所 导致 的 错误 8。 
如 果 在 PostgreSQL 和 MySQL 数据 省 ee a ey 人 i i 
库 执行 这 条 SQL 语句 ， 会 因 主 键 但 是 , 一 般 来 说 需要 进行 这 样 的 调换 大 多 是 因为 表 的 设计 出 现 了 问题 ， 












































和 当 。 人 二， 多 来 用 。 所 以 请 先 重新 审视 一 下 表 的 设计 ， 去 掉 不 必要 的 约束 。 


伶 查 本 来 就 发 生 在 更 新 完成 后 ， 
因此 更 新 途中 主键 一 时 出 现 重复 
也 没有 问题 。 事 实 上 ， 在 0racle、 


0B2、SQL Server 数据 库 执行 都 FP" 表 之 间 的 数据 匹配 


没有 问题 。 ” 本 醒 靖 === 一 =mm 忆 m 赤 定 下 下 到 惠 王 王 二 二 二 二 本 本 二 二 本 瑟瑟 王 王 王 惠 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 王 本 本 王 本 本 本 本 查 本 本 本 本 查 本 王 本 查 查 本 


与 DECODE 函数 等 相 比 ,cASE 表达 式 的 一 大 优势 在 于 能 够 判断 表达 式 。 
也 就 是 说 ， 在 CASE 表达 式 里 ， 我 们 可 以 使 用 BETWEEN、LIKE 和 <、 > 等 
便利 的 谓词 组 合 ， 以 及 能 租 套 子 查询 的 IN 和 EXISTS 谓词 。 因 此 ，CRAsE 
表达 式 具 有 非常 强大 的 表达 能 力 。 
如 下 所 示 ， 这 里 有 一 张 资格 培训 学 校 的 课程 一 览 表 和 一 张 管理 每 个 月 
所 设 课程 的 表 。 
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图 课程 一 览 图 开设 的 课程 
CourseMaster OpenCourses 


course_id course_name course_id 


会 计 入 门 200706 
财务 知识 200706 
簿 记 考试 200706 
税务 师 200707 
200708 
200708 






























































我 们 要 用 这 两 张 表 来 生成 下 面 这 样 的 交叉 表 ， 以 便于 一 目 了 然 地 知道 














I 



































每 个 月 开设 的 课程 。 
course name 6 月 又 局 8 
会 中信 站 @ x 
财务 知识 x x O 
簿 记 考 试 国 受 x 
税务 师 @ @ O 





我 们 需要 做 的 是 ， 检 查 表 OpenCourses 中 的 各 月 里 有 表 CourseMaster 
中 的 哪些 课程 。 这 个 匹配 条 件 可 以 用 cAsE 表达 式 来 写 。 
























































-- 表 的 匹配 : 使 用 IN 谓词 
SELECT Course name, 
CASE WHEN course id IN 
(SELECT course id FROM OpenCourses 
WHERE month = 200706) THEN 'O! 
ELSEMIX END AS "EA 
CASE WHEN course id IN 
(SELECT course id FROM OpenCourses 
WHERE month = 200707) THEN 'O' 
ESE XEND AS 7 /a 
CASE WHEN course id IN 
(SELECT course id FROM OpenCourses 
WHERE month = 200708) THEN 'O'! 
ES ND eAS aE 
FROM CourseMaster; 
























































-- 表 的 匹配 : 使 用 EXISTS 谓词 
SELECT CM.course name， 
CASE WHEN EXISTS 
(SELECT course id FROM OpenCourses OC 
WHERE month = 200706 











1-1 CASE 表 达 式 
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AND OC.course id = CM.course id) THEN 'O" 
ELSE 'x' END AS "€é 月 ", 
CASE WHEN EXISTS 
(SELECT course id FROM OpenCourses OC 
WHERE month = 200707 
ANDPOGNEOURSe 1d CV coursenlid) TaN .oO 
ES EN ND AS eu 
CASE WHEN EXISTS 
(SELECT course id FROM OpenCourses OC 
WHERE month = 200708 
AND OG COUurSen ld ev courseD lid rdaNe oO, 
BSEN > END AS ee 
FROM CourseMaster CM; 









































这 样 的 查询 没有 进行 聚合 ， 因 此 也 不 需要 排序 ， 月 份 增加 的 时 候 仅 修 
改 SELECT 子 句 就 可 以 了 ， 扩 展 性 比较 好 。 

无 论 使 用 IN 还 是 EXISTS, 得 到 的 结果 是 一 样 的 , 但 从 性 能 方面 来 说 ， 
EXISTS 更 好 。 通 过 EXISTS 进行 的 子 查询 能 够 用 到 “mconth，course 
idq” 这 样 的 主键 索引 ， 因 此 尤其 是 当 表 OpenCourses 里 数据 比较 多 的 时 候 
更 有 优势 。 




































































































































































怖 ; 在 CASE 表达 大 式 中 使 用 聚合 函数 


接 下 来 介绍 一 下 稍微 高 级 的 用 法 。 这 个 用 法 乍 一 看 可 能 让 人 觉得 像 是 
语法 错误 ， 实 际 上 却 并 非 如 此 。 我 们 来 看 一 道 例题 ， 假 设 这 里 有 一 张 显 示 
了 学 生 及 其 加 入 的 社团 的 一 览 表 。 如 表 StudentClub 所 示 ， 这 张 表 的 主键 

是 “学 号 、 社 团 ID ”， 存 储 了 学 生 和 社团 之 间 多 对 多 的 关系 。 




























































































转 StudentClub 
std_id (学 号 ) club_id (社团 ID) ， club_name (社团 名 ) main_club flg ( 主 社团 标志 ) 










































































@ 10 


第 1 章 神奇 的 SOL 











有 的 学 生 同 时 加 入 了 多 个 社团 (如 学 号 为 100、200 的 学 生 )， 有 的 学 
生 只 加 入 了 某 一 个 社团 (如 学 号 为 300、400、500 的 学 生 )。 对 于 加 入 了 
多 个 社团 的 学 生 ， 我 们 通过 将 其 “ 主 社团 标志 ” 列 设置 为 Y 或 者 N 来 表 
明 哪 一 个 社团 是 他 的 主 社团 ; 对 于 只 加 入 了 一 个 社团 的 学 生 , 我 们 将 其 “ 主 
社团 标志 ” 列 设 置 为 N。 

接 下 来 ， 我 们 按照 下 面 的 条 件 查询 这 张 表 里 的 数据 。 

1. 获取 只 加 入 了 一 个 社团 的 学 生 的 社团 ID。 

2. 获取 加 入 了 多 个 社团 的 学 生 的 主 社团 ID。 

很 容易 想到 的 办 法 是 ， 针 对 两 个 条 件 分 别 写 SQL 语句 来 查询 。 要 想 
知道 学 生 “ 是 否 加 入 了 多 个 社团 ” 我 们 需要 用 HAVING 子 句 对 聚合 结 







































































































































































国 条 件 1 的 SOL 





-- 条件 1 : 选择 只 加 入 了 一 个 社团 的 学 生 

SELECT std id, MAX(club id) AS main club 
FROM StudentClub 

GROUP BY stqd id 

HAVING COUNT(*) = 1; 














图 执行 结果 1 


300 4 
400 本 
500 6 


图 条 件 2 的 SOL 





-- 条 件 2 : 选择 加 入 了 多 个 社团 的 学 生 

SEEECT seEdid clu id AS mac 
FROM StudentClub 

WHEREMMAaT noL ub 











图 执行 结果 2 


stduide marae lu 


CASE 表达 式 ， 下 面 这 


这 样 做 也 能 得 到 正确 的 结果 ， 但 需要 写 多 条 SQL 语句 。 而 如 果 使 用 

















SELECT std _ id， 
CASE WHEN COUNT(*) = 1 -- 只 加 入 了 一 个 社团 的 学 生 
THEN MAX (club id) 
ELSE MAX(CASE WHEN main club flg = 'Y' 


1-1 ” CASE 表达 式 


17 @ 























一 条 SQL 语句 就 可 以 了 。 














Nee lel 
ELSE NULL END) 


END AS main club 
FROM StudentClub 
GROUP BY stqd id; 


Ste mamel ls 


这 条 SQL 语句 在 CASE 表达 式 里 使 用 了 聚合 函数 ， 又 在 聚合 函数 里 











使 











“只 加 入 了 一 个 社团 还 是 加 入 了 多 个 社团 ”这 样 
聚合 结果 进行 条 件 判 断 时 要 用 HAVING 子 句 ， 但 从 这 道 例 
在 SELECT 语句 里 使 用 caAsE 表达 式 也 可 以 完成 同样 的 工作 ， 


的 时 候 ， 都 学 过 对 
题 可 以 看 到 ， 


了 CASE 表达 式 。 


CASE WHEN COUNT (*) 


这 种 相 套 的 写法 让 人 有 点 眼花 综 乱 ， 其 主要 目的 是 用 





















































3 ELSE - 这 样 的 cASE 表达 式 来 表示 
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的 条 件 分 支 。 我 们 在 初学 SQL 
























































这 种 写法 比较 新 颖 。 如 果 用 一 句 话 来 形容 这 个 技巧 ， 可 以 这 样 说 : 





新 手 用 HAVING 子 句 进 行 条 件 分 支 , 高 手 用 SELECT 子 句 进行 条 件 分 支 。 
通过 这 道 例题 我 们 可 以 明白 : cASE 表达 式 用 在 SELECT 子 句 里 时 ， 既 






























































可 以 写 在 聚合 函数 内 部 ， 也 可 以 写 在 聚合 函数 外 部 。 这 种 高 度 自 由 的 写法 





表达 
缺 的 基础 技能 ， 请 一 定 





正 是 cASE 表达 式 的 魅力 所 在 。 


是 本 节 小 结 


本 节 ， 我 们 一 起 领 





各 了 CASE 表达 式 的 灵活 和 强大 的 表达 能 力 。CASE 


























式 是 支撑 SQL 声明 式 编程 的 根基 之 一 ， 也 是 灵活 运用 SQL 时 不 可 或 




















定 要 学 会 它 。 在 本 书 的 后 半 部 分 ， 几 乎 没有 哪 一 节 不 
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ne 


j 到 CASE 表达 式 的 ， 这 也 是 把 它 放 在 本 书 开 头 来 介绍 的 原因 。 











最 后 说 一 点 细节 的 东西 。cASE 表达 式 经 常会 因为 同 VB 和 C 语言 
的 casE“ 语 句 ” 混 请 而 被 叫 作 cASE 语句 。 但 是 准确 来 说 , 它 并 不 是 语句 ， 


























而 是 和 1+1 或 者 a/b 一 样 属于 表达 式 的 范畴 。 结 束 符 END 确实 看 起 来 像 
是 在 标记 一 连 串 处 理 过 程 的 终结 ， 所 以 初次 接触 cASE 表达 式 的 人 容易 对 
这 一 点 感到 困惑 。“ 表 达 式 ”和 “语句 ”的 名 称 区 别 恰恰 反映 了 两 者 在 功 












































能 处 理 方面 的 差异 。 

















作为 表达 式 ，cCASE 表达 式 在 执行 时 会 被 判定 为 一 个 固定 值 ， 因 此 它 








可 以 写 在 聚合 函数 内 部 ;也 正 因为 它 是 表达 式 ， 所 以 还 可 以 写 在 SELECE 














子 句 、GROUP BY 子 句 、WHERE 子 句 、ORDER BY 子 句 里 。 





简单 点 说 ， 在 能 








写 列 名 和 和 常量 的 地 方 ， 通 常 都 可 以 写 CASE 表达 式 。 从 这 个 意义 上 来 说 ， 
与 CASE 表达 式 最 接近 的 不 是 面向 过 程 语 言 里 的 CASE 语句 ， 而 是 Lisp 和 
Scheme 等 函数 式 语言 里 的 case 和 cong 这 样 的 条 件 表 达 式 。 关 于 SQL 和 




































































函数 式 语言 的 对 比 ， 第 2 章 会 进行 介绍 。 





下 面 是 本 节 要 点 。 























1. 在 GROUP BY 子 句 里 使 用 cASE 表达 式 ， 可 以 灵活 地 选择 作为 聚合 
的 单位 的 编号 或 等 级 。 这 一 点 在 进行 非 定制 化 统计 时 能 发 挥 巨大 的 威力 。 
2. 在 聚合 函数 中 使 用 casE 表达 式 ， 可 以 轻松 地 将 行 结构 的 数据 转换 


























成 列 结构 的 数据 。 
3. 相反 ， 聚 合 函 数 也 可 以 扔 套 进 cAsE 表达 式 里 使 用 。 



































4. 相 比 依赖 于 具体 数据 库 的 函数 ，casE 表达 式 有 更 强大 的 表达 能 











和 更 好 的 可 移植 性 。 








5. 正 因为 CASE 表达 式 是 一 种 表达 式 而 不 是 语句 ， 才 有 了 这 诸多 优点 。 























如 果 想 了 解 更 多 关于 cASE 表达 式 的 内 容 ， 请 参考 下 罩 








[的 文献 资料 。 





1. Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人 民 邮 电 出 版 社 ，2013 年 ) 
请 参考 15.3.5 节 “ 在 UPDATE 中 使 用 CASE 表达 式 ” 和 18.1 节 “CASE 
表达 式 ” 等 。 从 caSE 表达 式 的 详细 用 法 到 具体 事例 ， 这 两 节 都 有 广泛 





















































的 介绍 。 

















1-1 ” CASE 表达 式 1 @ 


2. Joe Celko,《SQL 解 惑 (第 2 版 )》( 人 民 邮 电 出 版 社 ，2008 年 ) 
关于 在 CASE 表达 式 中 蔡 入 聚合 函数 ， 请 参考 “ 谜 题 13 教师 ”“ 谜 题 36 
双重 职务 ”“ 谜 题 43 毕业 ”另外 ,“ 谜 题 44 成 对 的 款式 ”运用 了 在 
UPDATE 里 进行 条 件 分 支 的 技巧 ,“ 谜 题 45 辣 味 香肠 比萨 饼 ” 用 casE 表 
达 式 巧妙 地 将 行 结构 的 数据 转换 成 了 列 结构 的 数据 。 




































































用 SQL 从 多 行 数据 里 选 出 最 大 值 或 最 小 值 很 容易 一 一 通过 GROUP BY 
子 句 对 合适 的 列 进行 聚合 操作 ， 并 使 用 MAX 或 MIN 聚合 函数 就 可 以 求 出 。 
那么 ， 从 多 列 数据 里 选 出 最 大 值 该 怎么 做 呢 ? 
样本 数据 如 下 表 所 示 。 












































Greatests 


A 











Oo 一 有 
| ~ ON 
oo | 一 | 人 | CE 














B 
Cc 
D 
































先 思 考 一 下 从 表 里 选 出 x 和 y 二 者 中 较 大 的 值 的 情况 。 此 时 求 得 的 结 
果 应 该 如 下 所 示 。 























key greatese 
A 2 
B 3 
Ct 也 
D 可 




















Oracle 和 MySQL 数据 库 直 接 提供 了 可 以 实现 这 个 需求 的 GREATEST 
函数 ， 但 是 这 里 请 不 要 用 这 些 函 数 ， 而 用 标准 SQL 的 方法 来 实现 。 

求 出 x 和 yy 二 者 中 较 大 的 值 后 ， 再 试 着 将 列 数 扩展 到 3 列 以 上 吧 。 这 
次 求 的 是 x、y 和 z 三 者 中 的 最 大 值 ， 因 此 结果 应 该 如 下 所 示 。 
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key greatestk 
A 3 
B G 
G 也 
D 8 





@ 练 习题 1-1-2 : 转换 行列 一 一 在 表 头 里 加 入 汇总 和 再 揭 © 
使 用 正文 中 的 表 PopTbl2 作为 样本 数据 ， 练 习 一 下 把 行 结构 的 数据 转 


























表示 再 次 使 用 前 述 内 容 ， 
这 里 指 的 是 在 表格 中 以 合计 值 的 

次 体现 德 岛 、 香 川 、 爱 媛 
和 高 知 这 4 个 县 的 数据 。 
























































换 为 列 结构 的 数据 吧 。 这 次 请 生成 下 面 这 样 的 表 头 里 带 有 汇总 和 再 揭 的 二 









































































































































一 一 译 者 注 

维 表 。 
性 别 全 国 德 岛 香川 爱 媛 高 知 国 ( 再 揭 ) 
0 人 
女 845 40 100 50 100 290 

“全 国 ” 列 里 是 表 PopTbl2 中 的 所 有 都 道 府 县 (限于 篇 幅 ， 还 有 一 些 
都 道 府 县 未 列 出 ) 人口 的 合计 值 。 男 外 ， 最 右边 的 一 列 “ 四 国 ( 再 揭 )” 
是 四 国 地 区 4 个 县 的 合计 值 。 








@ 练 习题 1-1-3 : 用 ORDER BY 生成 “排序 ” 列 

最 后 这 个 练习 题 用 到 的 是 比较 小 众 的 技巧 ， 但 有 时 又 必须 使 用 它 ， 所 
以 我 们 也 来 看 一 下 。 

对 练习 题 1-1-1 里 用 过 的 表 Greatests 正常 执行 SELECT key FROM 
Greatests ORDER BY key; 这 个 查询 后 ， 结 果 会 按照 key 这 一 列 值 的 字 
母 表 顺序 显示 出 来 。 

那么 ， 请 思考 一 个 查询 语句 ， 使 得 结果 按照 B-A-D-C 这 样 的 指定 顺 
序 进 行 排列 。 这 个 顺序 并 没有 什么 具体 的 意义 ， 大 家 也 可 以 在 实现 完 上 述 
需求 后 ， 试 着 实现 让 结果 按照 其 他 顺序 排列 。 






































































































































1-2” 自 连接 的 用 法 21@ 








区 面向 集合 语言 SQL 

SQL 通常 在 不 同 的 表 或 者 视图 间 进 行 连接 运算 ， 但 是 也 可 以 对 相同 的 表 进 行 “ 自 连接 ”运算 。 自 连 
接 的 处 理 过 程 不 太 容 易 想象 ， 因 此 人 们 常常 对 其 敬而远之 。 但 是 ， 如 果 能 熟练 掌握 ， 就 会 发 现 它 是 非常 
方便 的 技术 。 本 节 ， 我 们 将 一 起 学 习 自 连接 的 用 法 。 





SQL 的 连接 运算 根据 其 特征 的 不 同 ， 有 着 不 同 的 名 称 ， 如 内 连接 、 外 
连接 、 交 叉 连 接 等 。 一 般 来 说 ， 这 些 连接 大 都 是 以 不 同 的 表 或 视图 为 对 象 
进行 的 ， 但 针对 相同 的 表 或 相同 的 视图 的 连接 也 并 没有 被 禁止 。 针 对 相同 
的 表 进 行 的 连接 被 称 为 “ 自 连 接 ”(self join)。 一 旦 熟练 掌握 自 连 接 技术 ， 
我 们 便 能 快速 地 解决 很 多 问题 。 但 是 ， 其 处 理 过 程 不 太 容 易 想 象 ， 以 至 于 
常常 被 人 们 敬而远之 。 因 此 在 本 节 里 ， 我 们 将 通过 例题 体会 一 下 自 连接 的 
便利 性 ， 并 理解 一 下 它 的 处 理 过 程 。 
理解 自 连 接 不 仅 可 以 让 我 们 学 会 实际 工作 中 能 用 到 的 技能 ， 还 能 增进 
我 们 对 “面向 集合 ”这 一 SQL 语言 重要 特征 的 理解 。 面 向 对 象 语言 以 对 
象 的 方式 来 描述 世界 ， 而 面向 集合 语言 SQL 以 集合 的 方式 来 描述 世界 。 
自 连 接 技术 充分 体现 了 SQL 面向 集合 的 特性 ， 相 信 大 家 在 读 完 本 节 后 再 
看 二 维 表 状 的 表格 时 ， 就 会 觉得 这 种 表格 更 像 是 集合 。 












































































































































假设 这 里 有 一 张 存放 了 商品 名 称 及 价格 的 表 ， 表 里 有 “苹果 、 橘 子 、 
香 态 ”这 3 条 记录 。 在 生成 用 于 查询 销售 额 的 报表 等 的 时 候 ， 我 们 有 时 会 
需要 获取 这 些 商品 的 组 合 。 
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注 @ 

在 支持 CROSS JOIN 写法 的 数据 
库 里 ， 也 可 以 写作 FROM Products 
P1 CROSS JOIN Products B2。 
如 果 这 样 写 ， 我 们 从 代码 上 就 能 
明确 看 出 是 在 进行 Ross JoIN， 
但 是 为 了 和 排列 及 组 合 的 代码 进 
行 比较 ， 这 里 采用 的 是 旧式 写法 。 
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Products 


name ( 商品 名 称 ) price ( 价格 ) 



































这 里 所 说 的 组 合 其 实 分 为 两 种 类 型 。 一 种 是 有 顺序 的 有 序 对 (ordered 




















pair)， 另 一 种 是 无 顺序 的 无 序 对 (unordered pair)。 有 序 对 月 


有 尖 括 号 括 起 来 ， 





























如 <1,2>; 无 序 对 用 花 括号 括 起 来 , 如 {1,2}。 在 有 序 对 里 , 如 果 元 素 顺序 相反 ， 



































那 就 是 不 同 的 对 ， 因 此 <1 2> 和 <2, 1> ;而 无 序 对 与 顺序 无 关 ， 因 此 {1,2} 三 
2, 1。 用 学 校 里 学 到 的 术语 来 说 ， 这 两 类 分 别 对 应 着 “排列 ”和 “组 合 ” 
用 SQL 生成 有 序 对 非常 简单 。 像 下 面 这 样 通过 交叉 连接 生成 笛 卡 儿 






































积 ( 直 积 )， 就 可 以 得 到 有 序 对 ®。 





























-- 用 于 获取 可 重 排列 的 SQL 语句 
SELECTOPI name AS namen lp2 name AS Mamen2 
FROM Products Pl1, Products P2; 























国 执 行 结果 
name 1 name 2 
平 果 Rs 
苹果 橘子 
苹 香 全 
橘子 苹果 
橘子 橘子 
橘子 香 莱 
香 其 苹果 
香 和 全 橘子 
香 燕 香 燕 


















































执行 结果 里 每 一 行 ( 记 录 ) 都 是 一 个 有 序 对 。 因 为 是 可 重 排列 ， 所 以 





















































和 
































吉 果 行 数 为 3 二 9。 结 果 里 出 现 了 (苹果 , 苹果 ) 这 种 由 相同 元 素 构成 的 对 ， 
而 且 《〈 橘 子 , 苹果 ) 和 《苹果 , 橘子 ) 这 种 只 是 调换 了 元 素 顺序 的 对 也 被 


当 作 不 同 的 对 了 。 这 是 因为 ， 该 查询 在 生成 结果 集合 时 会 区 分 顺序 。 
接 下 来 ， 我 们 思考 一 下 如 何 更 改 才能 排除 掉 由 相同 元 素 构成 的 对 。 首 





























先 ， 为 了 去 掉 〈 人 苹果 , 苹果 ) 这 种 
加 上 一 个 条 件 ， 然 后 再 进行 连接 运算 。 




















相同 元 素 构成 的 对 ， 需 要 像 下 面 这 样 

















于 获取 排列 的 SQL 语句 
SELECGHeD nme Ananeel, 
FROM Products Pl1, Products P2 
WHERE Pl.name <> P2.name; 





























上 WHERE Pl.name <> P2.name 这 个 条 件 以 后 ， 就 能 排除 掉 














连接 的 





六 














P2.name AS name 2 
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相 


同 元 素 构成 的 对 ， 结 果 行 数 为 排列 P? = 6。 理 解 这 个 连接 的 关键 在 于 想象 






































图 执行 结果 

name 1 name 2 

苹果 橘子 

橘子 苹果 

橘子 香 燕 

香蕉 苹果 

香 燕 橘子 

加 J 
下 这 里 存在 下 面 这 样 的 两 张 表 。 

图 不 能 有 ( 苹果 , 苹果 ) 这 样 的 组 合 


























当然 ,无 论 是 P1 还 是 P2, 实 际 上 数据 都 来 


price ( 价格 ) 


name ( 商品 名 称 ) 
























































P.22)。 但 是 ， 在 SQL 里 ， 只 要 被 赋予 了 不 同 的 名 称 ， 即 便 是 相同 的 表 
应 该 当 作 不 同 的 表 (集合 ) 来 对 待 。 








同一 张 物理 表 Products( 见 


出 


by 








也 就 是 说 ，P1 和 P2 可 以 看 成 是 磁 ] 











| 























存储 了 相同 数据 的 两 个 集合 。 这 样 的 话 ， 这 个 自 连接 的 处 理 结果 就 成 了 下 





面 这 样 。 














. P1 里 的 “苹果 ?” 
. P1 里 的 “橘子 ” 
。P1 里 的 “ 香 玖 ” 


由 此 我 们 可 以 认为 ， 





相同 的 表 的 自 连接 和 不 同 表 间 的 普通 连接 并 没有 








行 的 连接 对 象 为 P2 里 的 “橘子 、 香 蕉 ”这 两 行 
行 的 连接 对 象 为 P2 里 的 “苹果 、 香 燕 ” 这 两 行 
行 的 连接 对 象 为 P2 里 的 “苹果 、 橘 子 ” 这 两 行 
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什么 区 别 ， 自 连接 里 的 “ 自 ” 这 个 词 也 没有 太 大 的 意义 。 

这 次 的 处 理 结果 依然 是 有 序 对 。 接 下 来 我 们 进一步 对 (苹果 , 橘子 ) 
和 《橘子 , 苹果 ) 这 样 只 是 调换 了 元 素 顺 序 的 对 进行 去 重 。 请 看 下 面 的 
SQL 语句 。 




















































































































-- 用 于 获取 组 合 的 SQL 语句 

SELECT Pl.name AS name 1, P2.name AS name 2 
BROM PrnoduetsaD roduectsen 

WHERE Pl.name > P2.name; 











国 执 行 结果 
name 1 name 2 
草 橘子 
香 燕 橘子 
香 燕 草 








同样 地 ， 请 想象 这 里 存在 P1 和 P2 两 张 表 。 在 加 上 “不 等 于 ”这 个 条 
件 后 ， 这 条 SQL 语句 所 做 的 是 ， 按 字符 顺序 排列 各 商品 ， 只 与 “字符 顺 
序 比 自己 靠 前 ”的 商品 进行 配对 ， 结 果 行 数 为 组 合 C? = 3。 到 这 里 ， 我 们 
终于 得 到 了 无 序 对 。 鸭 怕 平 时 我 们 说 到 组 合 的 时 候 ， 首 先 想到 的 就 是 这 种 
类 型 的 组 合 吧 。 

想 要 获取 3 个 以 上 元 素 的 组 合 时 ， 像 下 面 这 样 简单 地 扩 
了 。 这 次 的 样本 数据 只 有 3 行 ， 所 以 结果 应 该 只 有 1 行 。 


































































































二 





展 一 下 就 可 以 


一 上 





















































-- 用 于 获取 组 合 的 SQL 语句 : 扩展 成 3 列 
SHURCEERTIEDamneEASEname QPp2 name AS name®2 PS name AS nameYy 
FROM Products Pl1l, Products P2, Products P3 
WHERE Pl.name > P2.name 
AND P2.name > P3.name; 











图 执行 结果 
name 1 name 2 name 3 
香 其 苹果 橘子 


如 这 道 例题 所 示 ， 使 用 等 号 “二 ”以 外 的 比较 运算 符 ， 如 “<、>、<>” 
进行 的 连接 称 为 “ 非 等 值 连接 ”。 这 里 将 非 等 值 连接 与 自 连 接 结 合 使 用 了 ， 
























































1-2 连接 的 














六 




















因此 称 为 “ 非 等 值 自 连接 ”。 在 需要 获取 列 的 组 合 时 ， 我 们 经 常 需要 用 到 
这 个 技术 ， 请 牢记 。 

最 后 补充 一 点 “>” 和 “< ”等 比较 运算 符 不 仅 可 以 用 于 比较 数值 大 小 ， 
也 可 以 用 于 比较 字符 串 《 比 如 按 字典 序 进行 比较 ) 或 者 日 期 等 。 















































在 关系 数据 库 的 世界 里 ， 重 复 行 和 Nurr 一 样 ， 都 不 受 欢 迎 9。 人 们 
设计 表 时 不 宜人 允许 存在 重复 行 ， OO 

原因 这 里 恕 不 袭 述 。 有 兴趣 的 读 “， 想 了 很 多 办 法 来 排除 掉 重 复 行 。 例 如 ， 前 面 的 例题 用 过 一 张 商 品 表 ， 现 在 
者 可 以 自行 参考 C.J. Date 的 著作 人 人 a 
《深度 深 志 关系 才 训 证、 交战 者 的 “假设 在 这 张 表 里 ,“ 橘 子 ”这 种 商品 存在 重复 。 可 怕 的 是 ， 这 张 表 里 连 主 


关系 是 论 ) (电子 工业 出 版 术 ，。 。 键 都 没有 (其 实 是 根本 没 法 设置 主键 )。 我 们 现在 就 需要 马上 清理 一 下 ， 





































































































































































































一 书 吕 
么 重复 元 组 是 被 禁止 的 "。 去 掉 重 复 行 。 
国 删 除 重复 行 


name ( 商品 名 称 ) ”price ( 价格 ) 








重复 











name ( 商品 名 称 ) price ( 价格 ) 
苹果 50 

橘子 100 

香蕉 80 























这 回 ， 我 们 来 学 习 一 下 使 用 关联 子 查 询 删 除 重复 行 的 方法 。 连 接 和 关 
联 子 查询 虽然 是 不 同 的 运算 ,但 是 思路 很 像 ， 而 且 很 多 时 候 它们 的 SQL 
在 功能 上 是 等 价 的 ， 所 以 在 这 里 我 们 一 并 了 解 一 下 。 
重复 行 有 多 少 行 都 没有 关系 。 通 常 ， 如 果 重 复 的 列 里 不 包含 主键 ， 就 
] 以 用 主键 来 处 理 ， 但 像 这 道 例题 一 样 所 有 的 列 都 重复 的 情况 ， 则 需要 使 
j 由 数据 库 独 自 实现 的 行 ID。 这 里 的 行 ID 可 以 理解 成 拥有 “任何 表 都 可 
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以 使 用 的 主键 ”这 种 特征 的 虚拟 列 。 在 下 
注 @ 是 Oracle 数据 库 里 的 rowid@。 











的 SQL 语句 里 ， 我 们 使 用 的 


表 





























dle 






































































































































像 这 样 给 用 户 提 供 了 可 用 的 行 ID 

入 娄 只 ( rowid 

和 ae Lo na -用 于 删除 重复 行 的 SQL 语句 (1) 使 用 极 信函 数 
postgreSQL 数据 库 里 ， 那 么 我 们 DELETE FROM Products Pl 

必须 在 建 表 时 指定 WITH oOIDS 才 WHERE rowid < ( SELECT MAX (P2.rowid) 

能 使 用 它 。 其 他 数据 库 则 必须 FROM Products P2 

用 户 自己 指定 主键 来 使 用 ， 或 者 WHERE Pl.name = P2. name 
用 其 他 办 法 ( 例如 将 去 重 后 的 结 AND Pl.price = P2.price 

















果 存 入 其 他 表 )。 









































这 个 关联 子 查 询 的 处 理 乍 看 起 来 不 是 很 好 理解 。 本 来 ， 关 联 子 查询 正 
如 其 名 ， 就 是 用 来 查找 两 张 表 之 间 的 关联 性 的 ， 而 这 里 只 有 一 张 表 ， 却 也 
跟 “ 关 联 ” 扯 上 了 关系 ， 想 必 大 家 都 心 存疑 问 吧 。 

之 所 以 大 家 会 有 这 种 疑问 ， 是 因为 没有 从 正确 的 层面 来 理解 这 条 SQL 
语句 。 请 像 前 面 的 例题 里 讲 过 的 一 样 ， 将 关联 子 查 询 理解 成 对 两 个 拥有 相 
同 数据 的 集合 进行 的 关联 操作 。 


































































































































































































P1 


rowid ( 行 ID ) name (商品 名 称 ) price ( 价格) 


























rowid ( 行 ID ) 商品 名 称 ) ”price ( 价格 ) 





















































的 重点 也 与 前 面 的 例题 一 样 ， 对 于 在 SQL 语句 里 被 赋予 不 同名 称 
的 集合 ， 我 们 应 该 将 其 看 作 完 全 不 同 的 集合 。 这 个 子 查询 会 比较 两 个 集合 
Pl 和 P2， 然 后 返回 商品 名 称 和 价格 都 相同 的 行 里 最 大 的 *owid 所 在 的 行 。 












































注 @ 

“用 集合 这 种 强大 的 、 总 括 性 的 数据 
结构 来 表达 所 有 ”这 种 简洁 的 设计 方 
针 为 SQL 带 来 了 很 大 的 优势 。 关 于 
这 些 优势 ， 本 书 2-3 节 会 详细 介绍 。 





























香 茶 见 
个 商品 ， 程 / 


橘子 ”和 “3: 橘子 ”都 会 被 删除 。 





























这 道 例题 我 们 明白 ， 如 果 从 物理 表 的 层 
“ 表 ”“ 视 图 ”这 样 的 名 称 只 反映 了 不 同 的 存储 方法 ， 而 
存储 方法 并 不 会 影响 到 SQL 语句 的 执行 和 结果 , 因此 无 需 有 什么 顾虑 在 
不 考虑 性 能 的 前 提 下 )。 无 论 表 还 是 视图 ， 








象 度 是 非常 低 的 。 






































SQL 能 处 理 的 唯一 的 数据 结构 @。 
此 外 ， 用 前 面 介绍 过 的 非 等 值 ; 












































上 男 














程 一 样 的 SQL 语句 。 请 在 纸 





于 是 ， 由 于 苹果 和 香蕉 没有 重复 行 ， 所 以 返回 的 行 是 “1; 
而 判断 条 件 是 不 等 号 ， 所 以 该 行 
说 返 回 的 行 是 “4: 橘子 ” 忆 
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连接 的 用 法 




















苹果 ”“5: 
< 会 被 删除 。 而 对 于 “橘子 ”这 
么 rowid 比 4 小 的 两 行 一 一 “7 











面 来 理解 SQL 语句 ， 抽 


























= 
合 是 


本 质 上 都 是 集合 一 一 








连接 的 方法 也 可 以 写 出 与 这 里 的 执行 过 


画 Pl 和 P2， 分 析 一 下 它 的 执行 
































删除 重复 行 的 SQL 语句 (2) : 使 














-- 用 
DELETE FROM Products P1 
WHERE EXISTS ( SELECT * 





FROM Products P2 
P2 .name 


WHERE Pl.name = 
AND P1.price 
AND Pl1.rowid 


图; 查找 局 部 不 一 致 的 列 


非 等 值 连接 


P22 PEGe 


< POW 





























相信 在 寄 送 新 年 贺卡 等 时 ， 有 人 会 

















Addresses 


name ( 姓名 ) 


family_id ( 家 庭 ID ) 





表 ， 主 键 是 人 名 ， 同 一 家 人 家 庭 ID 一 样 。 


中 作 这 样 一 张 表 吧 。 





address ( 住址 ) 


























京都 港 


京都 港 区 虎 之 门 3-2-29 
区 虎 之 门 3-2-92 











京都 新 宿 区 


新 宿 2-8-1 





























东京 都 新 宿 区 








新 宿 2-8-1 














贝克 街 221B 























贝克 街 221B 











一 般 来 说 ， 同 一 家 人 应 该 住 在 同一 个 地 方 
尔 摩 斯 和 华 生 这 样 不 是 一 家 人 却 住 在 一 起 的 




















(如 加 滕 家 )， 但 也 有 像 福 














青 况 。 接 下来， 我们 看 一 
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下 前 田 夫妇 。 这 两 个 人 并 没有 分 居 ， 只 是 夫人 的 住址 写 错 了 而 已 。 前 面 
说 了 ， 如 果 家 庭 ID 一 样 ， 住 址 也 必须 一 样 ， 因 此 这 里 需要 修改 一 下 。 那 
么 我 们 该 如 何 找 出 像 前 田 夫妇 这 样 的 “是 同一 家 人 但 住址 却 不 同 的 记 
录 ” 呢 ? 

实现 办 法 有 几 种 , 不 过 如 果 用 非 等 值 自 连接 来 实现 , 代码 会 非常 简洁 。 






















































































-- 用 于 查找 是 同一 家 人 但 住址 却 不 同 的 记录 的 SQL 语句 
SELECT DISTINCT Al.name, Al.address 
FROM Addresses Al, Addresses A2 
WHERE Al.family id = A2.family id 
AND Al.address <> A2.address :; 


























条 SQL 语句 逐 词 翻译 了 “是 同一 家 人 ， 但 住址 却 不 同 ” 这 个 条 件 ， 
es 可 以 看 到 ， 像 这 样 把 自 连接 和 非 等 值 连接 结合 起 来 
确实 非常 好 用 。 这 条 SQL 语句 不 仅 可 以 用 于 发 现 不 规则 的 数据 ， 而 且 修 
改 一 下 也 可 以 用 来 查找 商品 ， 比 如 下 面 这 道 例题 。 










































































问题 : 从 下 面 这 张 商品 表 里 找 出 价格 相等 的 商品 的 组 合 。 


Products 


price ( 价格 ) 
50 
100 















































回答 : 和 前 面 的 住址 表 那 道 题 的 结构 完全 一 样 。 


家 庭 ID 一 价格 
住址 一 商品 名 称 














请 像 上 面 这 样 蔡 换 一 下 。 然 后 ， 代 码 就 会 变 成 下 面 这 样 。 
































1-2 连接 的 





29 @ 


六 


























-- 用 于 查找 价格 相等 但 商品 名 称 不 同 的 记录 的 SQL 语句 
SELECT DISTINCT Pl.name, Pl.price 

FROM Products Pl1, Products P2 
WHERENDI NDEIee D2 Elee 











AND Pl.name <> P2.name; 








图 执行 结果 
name price 
苹果 50 
葡萄 50 
草莓 100 
橘子 100 
香 莱 100 

















请 注意 ， 这 里 与 住址 表 那 道 例题 不 同 ， 如 果 不 加 上 DISTINCT， 结 果 
里 就 会 出 现 重复 行 。 关 键 在 于 价格 相同 的 记录 的 条 数 。 而 就 住址 表 的 例 
题 来 说 ， 如 果 前 田家 有 孩 子 ， 那 么 不 在 代码 中 加 上 DISTINcT 的 话 ， 结 
里 才 会 出 现 重复 行 。 不 过 ， 这 道 例题 使 用 的 是 连接 查询 ， 如 果 改 用 关 
联 子 查询 ， 就 不 需要 DISTINCT 了 。 请 大 家 把 这 当 作 练习 题 ， 试 着 改写 
二 要 




































































在 使 用 数据 库 制 作 各 种 票据 和 统计 表 的 工作 中 ， 我 们 经 常会 遇 到 按 分 
数 、 人 数 或 销售 额 等 数值 进行 排序 的 需求 。 某 些 数据 库 管 理 系统 (Database 
Management System，DBMS) 己 经 实现 了 这 样 的 功能 (如 Oracle、DB2 
数据 库 的 RANK 函数 等 )。 

现在 ， 我 们 要 按照 价格 从 高 到 低 的 顺序 ， 对 下 面 这 张 表 里 的 商品 进行 
排序 。 我 们 让 价格 相同 的 商品 位 次 也 一 样 ， 而 紧 接 着 它们 的 商品 则 有 两 种 
排序 方法 ， 一 种 是 跳 过 之 后 的 位 次 ， 另 一 种 是 不 跳 过 之 后 的 位 次 。 
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Products 


name ( 商品 名 称 ) price ( 价格 ) 

























































































ED 如 果 使 用 窗口 函数 @， 可 以 像 下 面 这 样 实现 。 
亦 称 0LAP 函数 或 分 析 函 数 。 
一 一 编者 注 __ 排序 ,使 函数 

















SELECT name, price, 
RANK() OVER (ORDER BY price DESC) AS rank 1, 
DENSE RANK() OVER (ORDER BY price DESC) AS rank 2 
FROM Products; 


























图 执行 结 

name Dee rank 1 rank 2 

橘子 100 1 1 
瓜 80 名 到 

苹果 50 3 3 

香 燕 50 3 3 

葡萄 50 3 

柠檬 30 6 4 





在 出 现 相同 位 次 后 ，rank_1 跳 过 了 之 后 的 位 次 ，rank_2 没有 跳 过 ， 
而 是 连续 排序 。 代 码 很 简洁 ， 而 且 很 容易 理解 。 不 过 用 到 的 RANK 函数 还 
属于 标准 SQL 中 较 新 的 功能 ， 目 前 只 有 个 别 数 据 库 实现 了 它 ， 还 不 能 用 
于 MySQL 数据 库 。 

所 以 我 们 还 要 考虑 一 下 有 没有 不 依赖 于 具体 数据 库 来 实现 的 方法 。 
面 是 用 非 等 值 自 连接 〈 真 的 很 常用 ) 写 的 代码 。 











































































































才 








































































































-- 排序 从 1 开始 。 如 果 已 出 现 相同 位 次 ， 则 跳 过 之 后 的 位 次 

SELECT P1.name， 
pln ce 
(SELECT COUNT (P2.price) 

FROM Products P2 

WHERE po elece > pl riee) rr EAS rankel 

EROM Products Pl 

ORDER BY rank 1; 



































国 执 行 结果 
name aes 
橘子 100 

瓜 80 
苹果 50 
葡萄 50 
香 莫 50 
柠檬 30 


这 段 代 码 的 排序 方法 看 起 来 很 普通 ， 
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1-2 连接 的 





























晶 很 容易 扩展 。 例 如 去 掉 标量 








i 











员 | 








子 查询 后 边 的 +1， 就 可 以 从 0 开始 给 商品 排序 ， 而 且 如 果 修 改 成 
COUNT (DISTINCT P2.pzrice)， 那 么 存在 相同 位 次 的 记录 时 ， 就 可 以 
不 跳 过 之 后 的 位 次 ， 而 是 连续 输出 (相当 于 DENSE_RANK 函数 )。 由 此 











排序 方式 。 




















可 知 ， 这 条 SQL 语句 可 以 根 提 


接 下 来 ， 我 




































































不 同 的 需求 灵活 地 进行 扩展 ， 实 现 不 同 的 























门 来 了 解 一 下 这 条 SQL 语句 的 执行 原理 。 这 道 例题 很 好 












































地 体现 了 面向 集合 的 思维 方式 。 子 查询 所 做 的 ， 是 计算 出 价格 比 自己 高 的 
记录 的 条 数 并 将 其 作为 自己 的 位 次 。 为 了 便于 理解 , 我 们 先 考虑 从 0 开始 ， 






























































对 去 重 之 后 的 4 个 价格 “{ 100，80，50，30 }” 进 行 排序 的 情况 。 首 先 
是 价格 最 高 的 100， 因 为 不 存在 比 它 高 的 价格 ， 所 以 couNT 函数 返回 0。 


接 下 来 是 价格 第 二 高 
可 1。 同样 地 ， 价 格 为 50 的 时 候 返 


















































的 80， 比 它 





高 的 价格 有 一 个 100， 所 以 couNT 函数 返 























2， 为 30 的 时 候 返 回 3。 这 样 ， 就 生 








成 了 一 个 与 每 个 价格 对 应 的 集合 ， 如 下 表 所 示 。 


图 同心 圆 状 的 递归 集合 





价格 


比 自己 高 的 价格 


比 自己 高 的 价格 的 个 数 


( 这 就 是 位 次 ) 





100 





100, 80 











100, 80, 50 
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注 @ 也 就 是 说 , 这 条 SQL 语句 会 生成 这 样 几 个 “同心 圆 状 的 ”9 递归 集合 ， 
Joe Celko 的 著作 《SQL 权威 指 和 RE a 
南 》 里 提 到 了 这 个 想法 ， 其 来 源 然后 数 这 些 集合 的 元 素 个 数 。 正 如 “同心 圆 状 ” 这 个 词 的 字面 意思 那样 ， 


可 以 追溯 到 冯 “， 诺 依 曼 。 本 、 
加 这 几 个 集合 之 间 存 在 如 下 包含 关系 。 
























































昌 3 3 光世 0 


集合 里 有 集合 ， 再 往 里 还 有 集合 …… 


S3 














实际 上 ,“ 通 过 递归 集合 来 定义 数 ” 这 个 想法 并 不 算 新 颖 。 有 趣 的 是 ， 
它 和 集合 论 里 沿用 了 100 多 年 的 自然 数 〈 包 含 0) 的 递归 定义 (recursive 













































































ED definition) 在 思想 上 不 谋 而 合 e@。 研 究 这 种 思想 的 学 者 形成 了 几 个 流派 ， 
关于 SQL 和 集合 论 的 关系 ， 本 书 二 、 ; 凑 尝 宏 刀 . 详 代 最 
ea 其 中 和 这 道 例题 的 思路 类 型 相同 的 是 计算 机 之 父 、 数 学 家 冯 . 诺 依 曼 提出 

的 想法 。 冯 . 诺 依 曼 首先 将 空 集 定义 为 0， 然后 按照 下 面 的 规则 定义 了 全 

体 自然 数 。 
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定义 完 0 之 后 ， 用 0 来 定义 1， 然 后 用 0 和 1 来 定义 2， 再 用 0、1 
和 2 来 定义 3…… 以 此 类 推 。 这 种 做 法 与 上 面 例题 里 的 集合 S0 ~ S3 在 
生成 方法 和 结构 上 都 是 一 样 的 〈 正 是 为 了 便于 比较 ， 例 题 里 的 位 次 才 从 
0 开始 )。 这 道 题 很 好 地 直接 结合 了 SQL 和 集合 论 ， 而 联系 二 者 的 正 是 
自 连接 。 



















































































1-2 ， 自 连接 的 用 法 33 @ 
































顺便 说 一 下 ， 这 个 子 查询 的 代码 还 可 以 像 下 面 这 样 按照 自 连接 的 写法 





来 改写 。 














-- 排序 : 使 用 自 连接 
SELECT P1.name， 
MA (Pl riee) A ploen 
COUNT(P2.name) +1 AS rank 1 
FROM Products Pl1 LEFT OUTER JOIN Products P2 
ONIPINDEICe < pO Delee 
GROUP BY Pl.name 
ORDER BY rank 1; 





























去 掉 这 条 SQL 语句 里 的 聚合 并 展开 成 下 面 这 样 ， 就 可 以 更 清楚 地 看 
同心 圆 状 的 包含 关系 (为 了 看 得 更 清楚 , 我 们 从 表 中 去 掉价 格 重复 的 行 ， 


























Ee 
在 语 


























只 留 下 桶 了 、 H 瓜 、 葡萄 和 柠檬 这 4 行 )。 


























-- 不 聚合 ， 查 看 集合 的 包含 关系 
SELECT P1 .name，P2 .name 
FROM Products P1 LEFT OUTER JOIN Products P2 
(ONEDIO EC ee bo ree 


图 执行 结 


























瓜 “橘子 。 所 一 一 一 | si :元 素 个 数 =1 







































































葡萄 “橘子 下 
葡萄 瓜 | S2 : 元 素 个 数 =2 
行 要。 栖 子 -| 
柠檬 葡萄 S3 : 元 素 个 数 =3 
柠檬 瓜 一 











从 执行 结果 可 以 看 出 ， 集 合 每 增 大 1 个 ， 元 素 也 增多 1 个 ， 通 过 数 集 








合 里 元 素 的 个 数 就 可 以 算出 位 次 。 








此 外 ， 这 个 查询 里 还 有 一 个 特别 的 技巧 ， 也 许 大 家 已 经 注意 到 了 。 蛋 
就 是 前 面 的 例题 里 用 的 连接 都 是 标准 的 内 连接 ， 而 这 里 用 的 却 是 外 连接 
如 果 将 外 连接 改 为 内 连接 看 一 看 ， 马 上 就 会 明白 这 样 做 的 原因 。 
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-- 排序 : 改 为 内 连接 

SELECT P1.name， 
MAX (P1.price) AS price, 
COUNT (P2 .name) +1 AS rank 1 

FROM Products P1 INNER JOIN Products P2 
GM eos < oe 
GROUP BY Pl .name 
ORDEROB YE am 





























国 执 行 结果 

-- 没有 第 1 名 | 

name price Lankal 
瓜 80 2 
葡萄 50 3 
苹果 50 3 
香 莫 50 3 
柠檬 30 6 











没 错 ， 第 1 名 “橘子 ”竟然 从 结果 里 消失 了 。 关 于 这 一 点 大 家 思考 一 























下 就 能 理解 了 。 没 有 比 橘子 价格 更 高 的 水 果 ， 所 以 它 被 连接 条 件 











Pl.price < P2.price 排除 掉 了 。 外 连接 就 是 这 样 一 个 用 于 将 第 1 名 也 存 























储 在 结果 里 的 小 技巧 (这 个 小 技巧 在 1-6 节 还 会 再 次 发 挥 重 要 作用 )。 


























本 节 ， 我 们 通过 4 个 应 用 实例 学 习 了 自 














不 亚 于 CASE 表达 式 的 重要 技术 ， 请 一 定 熟 细 


的 地 方 ， 与 多 表 之 间 进 行 的 普通 连接 相 比 ， 














连接 的 一 些 知识 。 自 连接 是 
掌握 。 最 后 说 一 个 需要 注意 


自 连接 的 性 能 开销 更 大 《〈 特 
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别 是 与 非 等 值 连接 结合 使 用 的 时 候 )， 因 此 





] 于 自 连接 的 列 推荐 使 用 主键 












































或 者 在 相关 列 上 建立 索引 。 本 节 例 题 里 出 现 的 连接 大 多 使 用 的 是 主键 。 











下 面 是 本 节 要 点 。 























1. 自 连 接 经 常 和 非 等 值 连接 结合 起 来 使 用 。 























2. 自 连 接 和 GROUP BY 结合 使 用 可 以 生成 递归 和 集合。 











3. 将 自 连 接 看 作 不 同 表 之 间 的 连接 更 容易 理解 。 











4. 应 把 表 看 作 行 的 集合 ， 用 面向 集合 的 方法 来 思考 。 






































5. 自 连接 的 性 能 开销 更 大 ， 应 尽量 给 用 了 











连接 的 列 建立 索引 。 


该 节 属 于 原 书 第 2 版 ， 即 Joe 
Ceko’s SQL for Smarties: Advanced 
SQL Programming, Second Edition 





( Morgan Kaufmann Pub，1999 年 ) 
中 的 内 容 ， 在 《SQL 权威 指南 
( 第 4 版 )》( 人 民 邮 电 出 版 社 ， 
2013 年 ) 中 未 出 现 ， 故 使 用 的 是 
英文 标题 。 一 一 编者 注 















































1-2” 自 连接 的 用 法 了 4 @ 
























































3 连接 是 用 途 很 广泛 的 技术 ， 在 本 书 中 的 出 现 频率 仅 次 于 casE 表达 
式 。 如 果 想 要 了 解 更 多 信息 ， 可 以 参考 下 面 的 文献 资料 。 



































1. Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人民 邮电 出 版 社 ，2013 年 ) 
关于 非 等 值 自 连接 , 请 参考 17.4.1 节 “Self Non-Equi-JOINs”@; 关于 排序 
请 参考 29.4.2 节 “ 广 义 极 值 函数 ” 

2. Joe Celko,《SQL 解 惑 (第 2 版 )》( 人 民 邮 电 出 版 社 ，2008 年 ) 

可 以 说 该 书 中 的 所 有 迹 题 都 用 到 了 自 连接 ， 其 中 有 代表 性 的 是 用 冯 … 诺 
依 曼 递归 集合 更 新 连续 编号 的 “ 谜 题 4 门禁 卡 ” 以 及 用 非 等 值 自 连 接 
求 最 大 下 限 的 “ 谜 题 30 平均 销售 等 待 时 间 ” 和 将 排列 转换 成 组 合 的 “ 谜 
题 44 成 对 的 款式 ”等 ， 都 是 很 棒 的 技术 。 


















































本 | 练习 题 





@ 练 习题 1-2-1 : 可 重组 合 
请 使 用 P.22 的 表 Products， 求 出 两 列 可 重组 合 。 结 果 应 该 如 下 所 示 。 























name 1 name 2 














香 燕 橘子 
苹果 橘子 
苹果 苹果 
橘子 橘子 











姑 为 是 组 合 ， 所 以 ( 香 矿 , 橘子) 和 《〈 桶 子 , 香 态 ) 这 样 顺序 相反 的 
对 被 视 为 相同 的 对 。 此 外 ， 因为 允许 重复 所 以 结果 里 也 出 现 了 《〈 桶 子 ， 
橘子 ) 这 样 的 对 。 



























































@ 练 习题 1-2-2 : 分 地 区 排序 

P.29 的 “排序 ”部 分 针对 表 的 所 有 行 计算 了 位 次 。 这 里 准备 了 下 面 这 
样 增 加 了 “地 区 ” 列 的 新 表 DistrictProducts， 请 计算 一 下 各 个 地 区 商品 价 
格 的 位 次 。 
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第 1 章 神奇 的 SQL 


DistrictProducts ( 每 个 地 区 的 水 果 价 格 ) 


district ( 地 区 ) name ( 商品 名 称 ) price ( 价格 ) 














































































































这 里 也 与 例题 一 样 ， 按 照 价格 由 高 到 低 的 顺序 进行 排序 ， 如 果 出 现 相 
同位 次 ， 就 跳 过 之 后 的 位 次 ， 最 后 结果 如 下 所 示 。 这 道 题 的 重点 是 ， 给 分 
开 后 的 几 个 部 分 排序 ， 而 不 是 对 一 整 张 表 进 行 排序 。 












































dnsEaTrct naneqpriceq raneadl 












































张 3 橘子 oo 
5 苹果 50 2 
瑟 北 葡萄 50 
琛 北 柠檬 30 4 
关东 柠檬 EU 和 
关东 菠 草 100 工 
关东 苹 100 于 
关东 葡萄 wh) 4 
关 西 柠 模 70 1 
关 瓜 30 有 
关 西 平 果 20 3 
































解法 还 是 有 使 用 窗口 函数 和 自 连 接 这 两 种 (如 果 把 标量 子 查 询 与 连接 
吉 合 起 来 的 解法 当成 男 一 种 ， 那 就 有 3 种 解法 )。 请 分 别 思考 一 下 。 


















































ys 











@ 练 习题 1-2-3 : 更 新 位 次 
再 练习 一 道 与 排序 相关 的 题 吧 。 假设 有 下 面 这 样 一 张 表 DistrictProducts2， 
里 边 原本 就 包含 了 “位 次 ” 列 。 


















































1-2， 自 连接 的 用 法 7 @ 




















DistrictProducts2 


district ( 地 区 ) ”name ( 商品 名 称 ) price ( 价格) ranking (位 次 ) 














































































































不 过 ,“ 位 次 ” 列 的 初始 值 都 是 NULL。 这 里 想 让 大 家 实现 包 
列 里 写 入 位 次 。 这 道 题 使 用 自 连 接 来 解答 没有 什么 问题 ， 但 是 如 果 使 用 窗 
函数 ， 就 需要 突破 一 些小 障 得 。 
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第 1 章 ”神奇 的 SOL 











> SOL 的 温柔 陷阱 


大 多 数 编程 语言 都 是 基于 二 值 逻 辑 的 ， 即 逻辑 真 值 只 有 真 和 假 两 个 。 而 SQL 语言 则 采用 一 种 特别 的 
逻辑 体系 一 一 三 值 逻辑 ， 即 逻辑 真 值 除了 真 和 假 ， 还 有 第 三 个 值 “ 不 确定 ”"。 三 值 逻辑 经 常会 带 来 一 些 意 
想不到 的 情况 ， 这 让 程序 员 很 是 烦恼 。 本 节 ， 我们 将 通过 理论 和 实例 深入 理解 一 下 三 值 逻辑 。 


Database in Depth: Relationa]l 
Theory for Practitioners, 0’Reilly 
edia，2005。 中 文 版 可 参考 《 深 
度 探索 关系 数据 库 . 实践 者 的 关 
系 理论 》( 电子 工业 出 版 社 ，2007 
年 )， 但 在 本 书 中 ， 涉 及 该 书 的 
引用 文 均 为 本 书 译 者 翻译 ， 后 文 
不 再 说 明 ， 仪 标注 原 书 名 。 
一 一 编者 注 

































































| 三 值 逻辑 和 NULL 








总 之 , 数据库 里 只 要 存在 一 个 NULL, 查询 的 结果 就 可 能 不 正确 。 而 且 ， 
一 般 没有 办 法 确定 具体 是 哪个 查询 返回 了 不 正确 的 结果 ， 所 以 所 有 的 结果 
看 起 来 都 很 可 竹 。 没 有 谁 能 保证 一 定 能 从 包含 NULL 的 数据 库 里 查询 出 正 
确 的 结果 。 要 我 说 ， 这 种 情况 着 实 令 人 束手无策 。@ 
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大 多 数 编程 语言 都 包括 布尔 型 (Boor 型 、BOOLEAN 型 ) 这 种 数据 类 
型 。 当 然 ，SQL 语言 里 也 有 。SQL-99 里 将 布尔 型 定义 为 可 以 由 用 户 直接 
操作 的 数据 类 型 。 此 外 ， 在 wHERE 子 句 等 地 方 进行 条 件 判断 时 也 经 常会 
用 到 布尔 型 的 运算 。 

然而 ， 大 家 知道 普通 编程 语言 里 的 布尔 型 和 SQL 语言 里 的 布尔 型 之 
间 有 什么 区 别 吗 ? 普通 语言 里 的 布尔 型 只 有 true 和 false 两 个 值 ， 这 种 
逻辑 体系 被 称 为 二 值 逻 辑 。 而 SQL 语言 里 ， 除 此 之 外 还 有 第 三 个 值 
unknown， 因 此 这 种 逻辑 体系 被 称 为 三 值 逻 辑 (three-valued logic)。 

那么 ， 为 什么 SQL 语言 采用 了 三 值 逻辑 呢 ? 作为 计算 机 基础 的 布尔 
代数 是 二 值 逻辑 的 ， 我 们 在 中 小 学 里 学 的 数学 和 风 辑 学 也 是 基于 二 值 逻 辑 
的 ， 关 系 模型 理论 基础 之 一 的 谓词 逻辑 也 是 二 值 逻辑 的 。 在 二 值 逻 辑 的 应 
用 如 此 广泛 的 情况 下 ， 为 什么 关系 数据 库 的 世界 特 立 独行 ， 选 择 了 三 值 逻 
辑 这 样 风格 近 异 的 逻辑 体系 呢 ? 





























































































































具体 示例 更 容易 理解 ， 也 可 以 从 后 


1-3 三 值 逻 辑 和 NULL 





39@ 

















问题 的 答案 就 在 于 NULL。 关 系数 据 库 里 引进 了 NULL， 所 以 不 得 不 同 
时 引进 第 三 个 值 。 这 样 的 三 值 逻辑 一 次 次 地 违背 常识 ， 深 深 地 困扰 着 数据 
库 工程 师 们 。 
本 节 ， 我们 将 了 解 一 下 三 值 逻辑 ， 并 通过 具体 的 代码 学 习 一 下 哪些 情 
况 需要 格外 留意 。 从 标题 可 以 看 到 ， 本 节 前 半 部 分 偏向 于 理论 介绍 ， 可 能 
9 些 枯燥 。 如 果 大 家 对 相关 理论 已 经 有 了 一 定 的 了 解 ， 或 者 觉得 通过 看 
部 分 的 “实践 篇 ”开始 阅读 ， 并 根据 




















































































































情况 适当 参考 “理论 篇 ”的 相关 内 容 。 












































两 种 NULL、 三 值 逻辑 还 是 四 值 逻 辑 


Li 





一 种 
因此 


appli 
不 知 
么 颜 


样 ? 


而 不 


加 上 
法 知 





失 的 











说 到 三 值 逻 辑 ， 笔 者 认为 话题 应 该 从 NULL 开始 ， 因 为 NULL 正 是 产 
E 三 值 逻 辑 的 “元 1”。 












































列 ， 这 个 人 的 眼睛 肯定 是 有 颜色 的 ， 但 是 如 果 




















属性 并 不 适用 于 冰箱 。 
“冰箱 的 眼睛 的 颜色 ”这 种 说 法 和 “ 圆 的 体积 ” 




















3 



























































“两 种 NULL” 这 种 说 法 大 家 可 能 会 觉得 很 奇怪 ， 因 为 SQL 里 只 存在 
NULL。 然 而 在 讨论 NULL 时 ,我 们 一 般 都 会 将 它 分 成 两 种 类 型 来 思考 。 
这 里 先 来 介绍 一 些 基 础 知识 ， 即 两 种 NULL 之 间 的 区 别 。 

两 种 Mu 分别 指 的 是 “未 知 ”Cunknown) 和 “不 适用 ”Cnot 
cable, inapplicable)。 以 “不 知道 戴 墨 镜 的 人 眼睛 是 什么 颜色 ”这 种 情 


















































也 不 摘 掉 眼 镜 ， 别 人 就 


道 他 的 眼睛 是 什么 颜色 。 这 就 叫 作 未 知 。 而 “不 知道 冰箱 的 眼睛 是 什 
色 ” 则 属于 “不 适用 ”。 因 为 冰箱 根本 就 没有 眼睛 ,所 以 “眼睛 的 颜色 ” 

















“男性 的 分 娩 次 数 ”一 














都 是 没有 意义 的 。 平 时 ， 我 们 习惯 了 说 “不 知道 ” 但 是 “不 知道 ” 
也 分 很 多 种 。“ 不 适用 ”这 种 情况 下 的 NULL, 在 语义 上 更 接近 于 “无 意义 ”， 














“虽然 现在 不 知道 ， 但 








是 “不 确定 ” 这 里 总 结 一 下 :“ 未 知 ” 指 的 是 
某 些 条 件 后 就 可 以 知道 ” 而 “不 适用 ” 指 的 是 “无 论 怎么 努力 都 无 
道 ”。 











关系 模型 的 发 明 者 EF. Codd 最 先 给 出 了 这 种 分 类 。 下 图 是 他 对 “于 








信息 ”的 分 类 。 














注 @ 

当 我 知道 Codd 曾经 提倡 过 四 值 
逻辑 后 ， 我 的 心情 用 震惊 来 形容 
也 毫 不 夺 张 。 而 没有 一 家 数据 库 
厂商 对 四 值 逻 辑 有 兴趣 这 个 消 
息 ， 我 觉得 对 所 有 的 数据 库 工程 
师 来 说 都 是 好 消息 。 

下 面 列 出 了 四 值 逻辑 的 真 值 表 ， 
仅 供 参考 。UNKNOWN 类 型 的 NULL 
的 真 值 用 applicable， 而 Not 
Applicable 类 型 的 NULL 的 真 值 
月 inapplicable 来 表示 。 就 算 
这 是 关系 模型 祖师 爷 Codd 博士 
的 理论 ， 也 真心 不 能 接受 ! 







































































































































































* f 
a a 
i i 
f ' 
AND +t a i 1 
二 t a 1 
a a | a i 
i i i i 
下 人 f f 
t t t t t 
a 国医: 国医: 
i 第 a i 
f t a f 





@@ 40 第 1 章 神奇 的 SQL 











国 关 系数 据 库 中 “丢失 的 信息 ”的 分 类 





元 组 整体 属性 值 











条 件 不 成 立 的 情况 | 条 件 不 可 能 成 立 的 情况 未 知 不 适 其 他 
(non-events) (inapplicable events) (applicable (inapplicable 
A-marked) I-marked) 














条 件 成 立 但 DBMS 无 法 知道 的 情况 
(events not known to the DBMS) 





Codd 曾经 认为 应 该 严格 地 区 分 两 种 类 型 的 NULL， 并 提倡 在 关系 数 
库 中 使 用 四 值 逻 辑 8。 不 知道 是 幸运 还 是 不 幸 (笔者 认为 肯定 是 舞 运 )， 
他 的 这 个 想法 并 没有 得 到 广泛 支持 ， 现 在 所 有 的 DBMS 都 将 两 种 类 型 的 
NULL 归 为 了 一 类 并 采用 了 三 值 逻辑 。 但 是 他 的 这 种 分 类 方法 本 身 还 是 有 
很 多 优点 的 ， 因 此 后 来 依然 有 很 多 学 者 文 持 。 


HH 































































































为 什么 必须 写成 “IS NULL”, 而 不 是 “= NULL” 
应该 有 不 少 人 对 上 面 这 个 标题 里 的 问题 感到 困惑 吧 ? 相信 刚 学 SQL 
的 时 候 ， 大 部 分 人 都 有 过 这 样 的 经 历 : 写 了 下 面 这 样 的 SQL 语句 来 查询 


某 一 列 中 值 为 NULL 的 行 ， 结 果 却 执行 失败 了 。 


























-- 查询 NULL 时 出 错 的 SQL 语句 
SELECT * 

FROM tbl A 
WHERE col 1 = NULL; 























通过 这 条 SQL 语句 ， 我 们 无 法 得 到 正确 的 结果 。 因 为 正确 的 写法 是 
col 1 IS NULL。 这 和 刚 学 C 语言 时 写 出 的 if (hoge = 0) 的 错误 非常 
相似 。 那 么 为 什么 用 “三 ”去 进行 比较 会 失败 呢 ? 表示 相等 关系 时 用 “三 ”， 











这 明明 是 我 们 在 小 学 里 就 学 过 的 常识 。 

这 当然 是 有 原因 的 。 那 就 是 ， 对 NULL 使 用 比较 谓词 后 得 到 的 结果 总 
是 unknown。 而 查询 结果 只 会 包含 WHERE 子 句 里 的 判断 结果 为 true 的 行 ， 
不 会 包含 判断 结果 为 false 和 unknown 的 行 。 不 只 是 等 号 ， 对 NULL 使 用 
其 他 比较 谓词 ， 结 果 也 都 是 一 样 的 。 所 以 无 论 col_1 是 不 是 NULL， 比 较 


结果 都 是 unknown。 
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-- 以 下 的 式 子 都 会 被 判 为 unknown 
= NUE 

2 > NULL 

3 < NULL 

4 <> NULL 

NULL = NULL 

















么 ,为 什么 对 Nor 使 用 比较 谓词 后 得 到 的 结果 永远 不 可 能 为 真 呢 ? 
Wa NULL 既 不 是 值 也 不 是 变量 。 NULL 只 是 个 表示 “没有 值 ” 的 














































































































标记 ， 而 比较 谓词 只 适用 于 值 。 因 此 ， 对 并 非 值 的 NULL 使 用 比较 谓词 本 
Rn 来 就 是 没有 意义 的 @。 
可 能 有 人 会 认为 “难道 NULL 不 、 
te “< 列 的 值 为 Nozz” “NurL 值 ”这 样 的 说 法 本 身 就 是 错误 的 。 因 为 





的 话 我 不 相信 1” 为 了 使 他 们 信 a | 本 
好 这 里 基站 站 co 和 和， NULL 不 是 值 ， 所 以 不 在 定义 域 (domain) 中 。 相 反 ， 如 果 有 人 认为 NULL 


Cy Date 的 语 以 二 权威 。 是 值 ， 那 么 笔者 倒 想 请 教 一 下 : 它 是 什么 类 型 的 值 ? 关系 数据 库 中 存在 的 


“我 们 先 从 定义 一 个 表示 “虽然 


雪 失 了 ， 但 却 适 用 的 值 ”的 标记 值 必然 属于 某 种 类 型 ， 比 如 字符 型 或 数值 型 等 。 所 以 ， 假 如 NULL 是 值 ， 


开始 。 我 们 把 它 叫 作 A-Mark。 这 
个 标记 在 关系 数据 库 里 既 不 被 当 。 ”那么 它 就 必须 属于 某 种 类 型 。 
作 值 ( value )， 也 不 被 当 作 变量 a ps 二 医 
(variable )。” (E.F. Codd, The NULL 容易 被 认为 是 值 的 原因 恐怕 | 两 个 。 第 一 个 是 在 C 语 言 等 编程 
Relationa] Mode] for Datab 人 Se i 
Wenoorut, lorio 2 p173) ”语言 里 面 ，NULL 被 定义 为 了 一 个 常量 (很 多 语言 将 其 定义 为 了 整数 0)， 
uJ ut 这 导致 了 人 们 的 混淆 。 但 是 ， 其 实 SQL 里 的 NULL 和 其 他 编程 语言 里 的 
Soi ee Swiem NULL 是 完全 不 同 的 东西 (请 参考 本 市 末尾 参考 文献 中 的 “C 语言 初级 
thedition) ，P. 

Q&A”),。 
第 三 个 原因 是 ，IS NULL 这 样 的 谓词 是 由 两 个 单词 构成 的 ， 所 以 人 们 
容易 把 Is 当 作 谓词 ， 而 把 NULL 当 作 值 。 特 别 是 SQL 里 还 有 IS TRUE、 
IS FALSE 这 样 的 谓词 ， 人 们 由 此 类 推 ， 从 而 这 样 认 为 也 不 是 没有 道理 。 
但 是 正如 讲解 标准 SQL 的 书 里 提醒 人 们 注意 的 那样 ， 我 们 应 该 把 TS 

NULL 看 作 是 一 个 谓词 。 因 此 ， 如 果 可 以 的 话 ， 写 成 IS_NULL 这 样 也 许 更 
注 @ 合适 @ 
C.J. Date 和 Hugh Darwen 的 著作 
《标准 SQL 指南 ( 第 4 版 )》( 原 本 
书 名 为 4 Guide to SQL Standard Unknown、 第 三 个 真 值 
Fourth Edition， 尚 无 中 文 版 )。 Sy 、 5 
0 终于 轮 到 真 值 unknown 登场 了 。 本 节 开头 也 提 到 过 ， 它 是 因 关系 数 
据 库 采 用 了 NULL 而 被 引入 的 “第 三 个 真 值 ”。 


这 里 有 一 点 需要 注意 : 真 值 unknown 和 作为 NULL 的 一 种 的 UNKNOWN 
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《未 知 ) 是 不 同 的 东西 。 前 者 是 明确 的 布尔 型 的 真 值 ， 后 者 既 不 是 值 也 不 
是 变量 。 为 了 便于 区 分 ， 前 者 采用 粗 体 的 小 写字 母 unknown， 后 者 用 普通 
的 大 写字 母 UNKNOWN 来 表示 。 为 了 让 大 家 理解 两 者 的 不 同 ， 我 们 来 看 一 
个 x=x 这 样 的 简单 等 式 。x 是 真 值 unknown 时 ，x=x 被 判断 为 true， 而 


x 是 UNKNOWN 时 被 判断 为 unknown。 

















-- 这 个 是 明确 的 真 值 的 比较 


unknown = unknown 一 true 





-- 这 个 相当 于 NULL = NULL 
UNKNOWN = UNKNOWN 一 unknown 


接 下 来 我 们 看 一 下 SQL 遵循 的 三 值 逻 辑 的 真 值 表 。 








国 三 值 逻 辑 的 真 值 表 ( NOT ) 



















































































图 中 浅 蓝 色 部 分 是 三 值 逻 辑 中 独 有 的 运算 , 这 在 二 值 逻 辑 中 是 没有 的 。 
其 余 的 SQL 谓词 全 部 都 能 由 这 三 个 逻辑 运算 组 合 而 来 。 从 这 个 意义 上 讲 ， 
这 个 矩阵 可 以 说 是 SQL 的 母体 (matrix)。 
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43 @ 












































NOT 的 话 ， 因 为 真 值 表 比较 简单 ， 所 以 很 好 记 ; 但 是 对 于 AND 和 OR， 
因为 组 合 出 来 的 真 值 较 多 ， 所 以 全 部 记 住 非常 困难 。 为 了 便于 记忆 ， 请 注 
意 这 三 个 真 值 之 间 有 下 面 这 样 的 优先 级 顺序 。 















































se AND 的 情况 : false > unknown > true 
。 OR 的 情况 : true > unknown > false 


优先 级 高 的 真 值 会 决定 计算 结果 。 例 如 true AND unknown， 因 为 
unknown 的 优先 级 更 高 ,所 以 结果 是 unknown。 而 true OR unknown 的 话 ， 
因为 true 优先 级 更 高 ， 所 以 结果 是 true。 记 住 这 个 顺序 后 就 能 更 方便 地 
进行 三 值 逻 辑 运 算 了 。 特别 需要 记 住 的 是 , 当 AND 运算 中 包含 unknown 时 ， 
结果 肯定 不 会 是 true( 反 之， 如 果 AND 运算 结果 为 true， 则 参与 运算 的 
双方 必须 都 为 true)。 这 一 点 对 理解 后 文 非常 关键 。 

关于 理论 就 介绍 这 么 多 吧 。 接 下 来 我 们 将 以 具体 的 代码 为 例 来 分 析 一 
下 三 值 逻辑 是 如 何 带 来 意料 之 外 的 结果 的 。 有 些 地 方 违反 了 我 们 习惯 了 的 
二 值 逻辑 的 一 些 常 识 ， 一 开始 可 能 会 不 好 理解 。 届 时 ， 请 翻 回来 看 一 看 这 
里 的 真 值 表 ， 实 际 动手 分 析 一 下 运算 过 程 。 

下 面 请 看 一 个 练习 题 。 

问题 : 假设 a = 2，b = 5，c = NULL， 此 时 下 面 这 些 式 子 的 真 值 是 
什么 ? 


1.a<b ANDb>c 












































































































































五 


































































































2.a>boRb < ec 
3.a<boRb < ec 
4.NOT (pb <> c) 


答案 


1. unknown; 2. unknown; 3. true; 4. unknown 


1. 比较 谓词 和 NULL(1) , 排 中 律 不 成 立 
我 们 假设 约翰 是 一 个 人 人。 那么 ， 下 面 的 语句 〈 以 下 称 为 “命题 ”” 是 
真是 假 ? 
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约翰 是 20 岁 ， 或 者 不 是 20 岁 ， 二 者 必 居 其 一 。 一 一 P 

















大 家 觉得 正确 吗 ? 没 错 ， 在 现实 世界 中 毫 无 疑问 这 是 个 真 命题 。 我 们 
不 知道 约翰 是 谁 ， 但 只 要 是 人 就 有 年 龄 。 而 且 只 要 有 年 龄 ， 那 么 就 要 么 是 
20 岁 ， 要 人 么 不 是 20 岁 ， 不 可 能 有 别 的 情况 。 类 似 的 还 有 “凯撒 渡 过 了 卢 
比 孔 河 ， 或 者 没有 渡 过 ， 二 者 必 居 其 一 ”““ 有 外 星人 ， 或 者 没有 外 星人 ， 
二 者 必 居 其 一 ”等 ， 这 些 都 是 真 命题 。 像 这 样 ,“ 把 命题 和 它 的 否 命题 通 
过 “或 者 ”连接 而 成 的 命题 全 都 是 真 合 题 ”这 个 命题 在 二 值 逻辑 中 被 称 为 
排 中 律 (Law of Excluded Middle)。 顾 名 思 义 ， 排 中 律 就 是 指 不 认可 中 间 
状态 ， 对 命题 真 伪 的 判定 黑白 分 明 ， 是 古典 逻辑 学 的 重要 原理 。“ 是 否 承 
认 这 一 原理 ”被 认为 是 古典 逻辑 学 和 非 古 典 逻 辑 学 的 分 界线 。 由 此 可 见 ， 
排 中 律 非常 重要 。 
如 果 排 中 律 在 SQL 里 也 成 立 ， 那 么 下 面 的 查询 应 该 能 选中 表 里 的 所 

















































































































































































































































































































-- 查询 年 龄 是 20 岁 或 者 不 是 20 岁 的 学 生 
SELECT * 
FROM Students 
WHERE age = 20 
RESeE 2 





遗憾 的 是 ， 在 SQL 的 世界 里 ， 排 中 律 是 不 成 立 的。 假设 表 Students 
里 的 数据 如 下 所 示 。 

















Students 


name ( 名字) age ( 年龄) 
22 











NULL! 











那么 这 条 SQL 语句 无 法 查询 到 约翰 ， 因 为 约翰 年 龄 不 详 。 关 于 这 
原因 ， 我 们 在 理论 篇 里 学 习 过 ， 即 对 NULL 进行 比较 运算 的 结果 是 
unknown。 具 体 来 说 ， 约 翰 这 一 行 是 按照 下 面 的 步骤 被 判断 的 。 
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-- 1. 约翰 年 龄 是 NULL ( 未 知 的 NULL ! 





SELECT * 
FROM Students 


WHERE age = NULL 


OR age <> NULL; 























on 

SELECT * 
FROM Students 
WHERE unknown 
OR unknown; 





-- 3. unknown OR unknown 的 结果 是 unknown ( 参考 


SELECT * 
FROM Students 
WHERE unknown; 





SQL 语句 的 查询 结果 是 





比较 谓词 后 ， 结 果 为 unknown 





















































-- 添加 第 3 个 条 件 : 


在 结果 里 ， 需 要 添加 下 面 这 检 

















的 “第 3 个 条 件 ” 























SELECT * 
FROM Students 
WHERE 20 
OR 
OR 


age = 





age <>20 
age IS NULL; 











像 这 样 ， 现 实 世 界 























三 值 逻辑 和 NULL 


“入” 


只 有 判断 结果 为 true 的 行 。 要 想 让 约 输 出 天 


年 龄 是 20 岁 ， 或 者 不 是 20 岁 ， 或 者 年 龄 未 知 





中 的 矩阵 ) 

















正确 的 事情 在 SQL 里 却 不 正确 的 情况 时 有 发 生 。 











实际 上 约翰 这 个 人 是 有 年 龄 的 ， 只 是 我 们 无 法 从 这 张 表 中 知道 而 已 。 换 名 











话说 ， 关 系 模型 并 不 是 月 
状态 的 核心 “知识 ) 的 模型 。 

















映 在 表 里 。 











六 




















日 于 描述 现实 世界 的 模型 ， 而 是 / 











j 于 描述 人 类 认 知 








此 ， 我 们 有 限 且 不 完备 的 知识 也 会 直接 反 

















即使 不 知道 约 输 的 年 龄 ， 他 在 现实 世界 中 也 一 定 “ 要 么 是 20 岁 ， 要 


么 不 是 20 




















岁 ” 一 一 我 们 容易 自然 而 然 地 这 村 








三 值 逻 辑 里 却 未 必 正 确 。 


F 认 为 。 然 而， 这 样 的 常识 在 


2. 比较 谓词 和 NULL(2) : CASE 表达 式 和 NULL 



























































下 面 我 们 来 看 一 下 在 CASE 表达 式 里 将 NULL 作为 条 件 使 用 时 经 常会 
出 现 的 错误 。 首 先 请 看 下 面 的 简单 cASE 表达 式 。 
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--col_1 为 1 时 返回 DO、 为 NULL 时 返回 x 的 CASE 表达 式 ? 


CASEPcColl 
WHEN 1 THEN 'O' 
WHEN NULL THEN 'x' 
END 


这 个 cASE 表达 式 一 定 不 会 返回 X。 这 是 因为 ， 第 二 个 WHEN 子 句 
是 col 1 = NULL 的 缩写 形式 。 正 如 大 家 所 知 ， 这 个 式 子 的 真 值 永 
远 是 unknown。 而 且 CASE 表达 式 的 判断 方法 与 WHERE 子 名 一样， 只 
认可 真 值 为 true 的 条 件 。 正 确 的 写法 是 像 下 面 这 样 使 用 搜索 cASE 表 
达 式 。 







































































CASE WHEN col 1 = 1 THEN WO 
WHEN col 1 IS NULL THEN 'x' 
END 





这 种 错误 很 常见 ， 其 原因 是 将 NULL 误解 成 了 值 。 这 一 点 从 NULL 和 
第 一 个 WHEN 子 句 里 的 1 写 在 了 同一 列 就 可 以 看 出 。 这 里 请 再 次 确认 自己 
己 经 记 住 “NULL 并 不 是 值 ” 这 点 。 







































































PT 





3. NOT IN 和 NOT EXISTS 不 是 等 价 的 

在 对 SQL 语句 进行 性 能 优化 时 ， 经 常用 到 的 一 个 技巧 是 将 IN 改写 成 

注 @ EXISTS@。 这 是 等 价 改 写 ， 并 没有 什么 问题 。 问 题 在 于 ， 将 NoT IN 改写 

ee 成 NOT EXISTS 时 ， 结 果 未 必 一 样 。 
例如 ， 请 看 下 面 这 两 张 班级 学 生 表 。 




































































Class_A 


name ( 名 字 ) age ( 年龄) city (住址 ) 
布 自 
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Class_B 


name (名字) age (年 龄 ) city (住址 ) 
























































神奈川 











请 注意 ，B 班 山田 的 年 龄 是 NULL。 我 们 考虑 一 下 如 何 根据 这 两 张 表 
查询 “与 B 班 住 在 东京 的 学 生年 龄 不 同 的 A 班 学 生 ”。 也 就 是 说 ， 和 希望 查 
询 到 的 是 拉 里 和 伯 杰 。 因 为 布衣 与 齐 蕨 年 龄 相同 ， 所 以 不 是 我 们 想 要 的 结 
果 。 如 果 单 纯 地 按照 这 个 条 件 去 实现 ， 则 SQL 语句 如 下 所 示 。 




































































-- 查询 与 B 班 住 在 东京 的 学 生年 龄 
SELECT * 
EROM Class A 
WHERE age NOT IN ( SELECT age 
FROM Class_B 
WHERE city = ' 东 京 ' ) ; 





司 的 A 班 学 生 的 SQL 语句 ? 








Eg 














这 条 SQL 语句 真 的 能 正确 地 查询 到 这 两 名 学 生 吗 ? 遗憾 的 是 不 能 。 
结果 是 空 ， 查 询 不 到 任何 数据 。 

实际 上 ， 如 果 山 田 的 年 龄 不 是 NULL( 且 与 拉 里 和 伯 杰 年 龄 不 同 )， 是 
能 顺利 找到 拉 里 和 伯 杰 的 。 然 而 ， 这 里 NULL 又 一 次 作怪 了 。 我 们 一 步 一 
步 地 看 看 完 竟 发 生 了 什么 吧 。 

























































































--1. 执行 子 查询 ， 获 取 年 龄 列表 
SONG 

FROM Class A 

WHPRUESSe NOTOTN RE27 2200 NU 

















--2. 用 NoT 和 IN 等 价 改 写 NOT IN 
SELECT * 

FROM Class A 

WHERE NOT age IN (22, 23, NULL); 




















--3. 用 OR 等 价 改写 谓词 IN 

SELECT * 

FROM Class A 

WHERE NOT ( (age = 22) OR (age = 23) OR (age = NULL) ); 
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--4. 使 用 德 . 摩根 定律 等 价 改写 
SEEECTY 
FROM Class A 























--5. 用 <> 等 价 改写 NOT 和 = 
SELECT * 
FROM Class A 




















<> 后 ， 上 阁 果 为 WRI 





--6. 对 NULL 使 
SELECT * 
FROM Class A 











--7.， 如 果 AND 运算 里 包含 unknown， 则 结果 不 为 tru 











SELECT * 
FROM Class A 
WHERE false 或 unknown; 














WHERE (age <> 22) AND (age <> 23) AND un 


WHERE NOT (age = 22) AND NOT(age = 23) AND NOT (age = NULL); 


WHERE (age <> 22) AND (age <> 23) AND (age <> NULL); 


“理论 篇 ”中 的 和 矩阵 ) 





可 以 看 出 ， 这 里 对 A 班 的 所 有 行 都 进行 了 如 此 繁琐 的 判断 ， 然 而 没 
有 一 行 在 WHERE 子 句 里 被 判断 为 true。 也 就 是 说 ， 如 果 NoT IN 子 查 询 
中 用 到 的 表 里 被 选择 的 列 中 存在 NULL， 则 SQL 语句 整体 的 查询 结果 永远 





























避 





怕 的 现象 。 


是 空 。 这 是 很 


























为 了 得 到 正确 的 结果 ， 我 们 需要 使 用 EXISTS i 











-- 正确 的 SQL 语句 : 拉 里 和 伯 杰 将 被 查询 型 
SREECGE 

EROM Class A A 
WHERE NOT EXISTS 








SELECT* 
FROM Class B B 


WHERE A.age = B.age 
AND B.city = ' 东 京 ' ) ; 














朋 词 。 























同样 地 ， 我 们 再 来 一 步 一 步 地 看 看 这 段 SQL 是 如 何 处 理 年 龄 为 NULL 








的 行 的 。 
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--1. 在 子 查询 里 和 NULL 进行 比较 运算 
SELECT * 
FROM Class AA 
WHERE NOT EXISTS ( SELECT * 
FROM Class B B 
WHERE A.age = NULL 
AND B.city = ' 东 京 ' ) ; 


























--2. 对 NULL 使 用 “=” 后 ， 结 果 为 unknown 
SELECT * 
FROM Class AA 
WHERE NOT EXISTS ( SELECT * 
FROM Class B B 
WHERE unknown 
AND B.city = ' 东 京 ' ) ; 





- -3. 如 果 AND 运算 里 包含 unknown， 结 果 不 会 是 true 
SELECT * 
FROM Class AA 
WEIEREO NOTIENESTSO (NN EEE 
FROM Class B B 
WHERE false 或 unknown); 








省 


--4. 子 查询 没有 返回 结果 ， 因 此 相反 地 ，NOT EXISTS 为 true 
SELECT * 
FROM Class AA 


WHERE true; 



































也 就 是 说 ， 山 田 被 作为 “与 任何 人 的 年 龄 都 不 同 的 人 ”来 处 理 了 (但 
是 ， 还 要 把 与 年 龄 不 是 NULL 的 齐 滕 及 田 周 进行 比较 后 的 处 理 结果 通过 
AND 连接 ， 才 能 得 出 最 终结 果 )。 产 生 这 样 的 结果 ， 是 因为 ExIsTs 谓词 永 
远 不 会 返回 unknown。EXISTS 只 会 返回 true 或 者 false。 因 此 就 有 了 
IN 和 EXISTS 可 以 互相 替换 使 用 ， 而 NoT IN 和 NoT EXISTS 却 不 可 以 互 
相 蔡 换 的 混乱 现象 。 虽然 写 代码 的 时 候 很 难 做 到 绝对 不 依赖 直觉 ， 但 作为 
数据 库 工程 师 来 说 ， 还 是 需要 好 好 理解 一 下 这 种 现象 。 
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4. 限定 谓词 和 NULL 

SQL 里 有 ALL 和 ANY 两 个 限定 谓词 。 因 为 ANY 与 IN 是 等 价 的 ， 所 以 
我 们 不 经 常 使 用 ANY。 在 这 里 ， 我 们 主要 看 一 下 更 常用 的 ALL 的 一 些 注意 
居 项 。 
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ALL 可 以 和 比较 谓词 一 起 使 用 ， 用 来 表达 “与 所 有 的 XX 都 相等 ”， 
或 “ 比 所 有 的 XX 都 大 ”的 意思 。 接 下 来 ， 我 们 给 B 班 表 里 为 NULL 的 
列 添上 具体 的 值 。 然 后 ， 使 用 这 张 新 表 来 思考 一 下 用 于 查询 “ 比 B 班 住 在 
东京 的 所 有 学 生年 龄 都 小 的 A 班 学 生 ” 的 SQL 语句 。 





Ne so| 































































































Class A 


name ( 名字) age ( 年龄) “city ( 住址) 
















































































神奈川 























使 用 ALL 谓词 时 ，SQL 语句 可 以 像 下 面 这 样 写 。 














i 

















-- 查询 比 B 班 住 在 东京 的 所 有 学 生年 龄 都 小 的 A 班 学 生 
SELECT * 
FROM Class A 
WHERE age < ALL ( SELECT age 
FROM Class _B 
WHERE city = ' 东 京 ' ) ; 








图 执行 结果 


name age GHEY 


汤 旦 19 EE 


















































查询 到 的 只 有 比 山田 年 龄 小 的 拉 里 ， 到 这 里 都 没有 问题 。 但 是 如 果 山 
年 龄 不 详 ， 就 会 有 问题 了 。 赁 直觉 来 次， 此 时 查询 到 的 可 能 是 比 22 岁 
的 齐 膝 年 龄 小 的 拉 里 和 伯 杰 。 然 而 ， 这 条 SQL 语句 的 执行 结果 还 是 空 。 
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Sie® 
































这 是 因为 ，ALL 谓词 其 实 是 多 个 以 AND 连接 的 逻辑 表达 式 的 省 略 写 法 。 具 
体 的 分 析 步 又 如 下 所 示 。 

















--1. 执行 子 查询 获取 年 龄 列 未 
SEEECT 

FROM Class A 
WHERE age < ALL ( 22, 23, NULL ); 








--2. 将 ALL 谓词 等 价 改写 为 AND 

SELECT * 

FROM Class A 

WHERE (age < 22) AND (age < 23) AND (age < NULL); 





--3. 对 NULL 使 用 “<” 后 ， 结 果 变 为 unknow 

SEEECT 

FROM Class A 

WHERE (age < 22) AND (age < 23) AND unknown; 























- -4. 如 果 AND 运算 里 包含 unknown， 则 结果 不 为 true 
SELECT 二 

FROM Class A 

WHERE false 或 unknown; 








是 谓词 和 4 不 是 等 价 的 
使 用 极 值 函数 代替 ALL 谓词 的 人 应 该 不 少 吧 。 如 果 用 极 值 函数 重 写 刚 
才 的 SQL， 应 该 是 下 面 这 样 。 





出 





Fa 





















































-- 查询 比 B 班 住 在 东京 的 
SELECT * 
EROM Class A 
WHERE age < ( SELECT MIN (age) 
FROM Class B 
WHERE city = ' 东 京 ' ) ; 


F 龄 最 小 的 学 生还 要 小 的 A 班 学 生 


上 
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没有 问题 。 即 使 山田 的 年 龄 无 法 确定 ， 这 上段 代码 也 能 查询 到 拉 里 和 伯 
杰 两 人 。 这 是 因为 ， 极 值 函 数 在 统计 时 会 把 为 NULL 的 数据 排除 掉 。 使 用 
极 值 函 数 能 使 Class_B 这 张 表 里 看 起 来 就 像 不 存在 NULL 一 样 。 

I 这 样 的 话 任何 时 候 都 使 用 极 值 函 数 号 不 是 更 安全 ?” 也 许 有 人 

这 么 想 。 然 而 在 三 值 逻辑 的 世界 里 ， 事 情 没 有 这 么 简单 。ALL 谓词 和 极 
他 娄 大 的 人 题 含 义 分 别 如 下 所 示 。 














































































































。 ALL 谓词 : 他 的 年 龄 比 在 东京 住 的 所 有 学 生 都 小 一 一 Q1 
。 极 值 函数 : 他 的 年 龄 比 在 东京 住 的 年 龄 最 小 的 学 生还 要 小 





Q2 












































在 现实 世界 中 ， 这 两 个 命题 是 一 个 意思 。 但 是 ， 正 如 我 们 通过 前 面 的 
例题 看 到 的 那样 ， 表 里 存在 NULL 时 它们 是 不 等 价 的 。 其 实 还 有 一 种 情况 
下 它们 也 是 不 等 价 的 ， 大 家 知道 是 什么 吗 ? 

答案 是 ， 谓 词 〈 或 者 函数 ) 的 输入 为 空 集 的 情况 。 例 如 Class_B 这 张 
表 为 如 下 所 示 的 情况 。 
























































Class_B 没有 住 在 东京 的 学 生 ! 


name (名字 ) age (年 龄 ) city (住址 ) 
千 叶 











千 叶 
神奈川 






































如 上 表 所 示 ，B 班 里 没有 学 生 住 在 东京 。 这 时 ,使 用 ALL 谓词 的 SQL 
语句 会 查询 到 A 班 的 所 有 学 生 。 然 而 ， 用 极 值 函数 查询 时 一 行 数据 都 查 
询 不 到 。 这 是 因为 , 极 值 函数 在 输入 为 空 表 ( 空 集 ) 时 会 返回 NULL。 因 此 ， 
使 用 极 值 函数 的 SQL 语句 会 像 下 面 这 样 一 步 步 被 执行 。 




















































































































--1. 极 值 函数 返回 NULL 
Soe 

FROM Class A 
WHERE age < NULL; 























--2. 对 NULL 使 用 “<” 后 结果 为 unknown 
SELECT * 

FROM Class A 

WHERE unknown; 
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S53® 














比较 对 象 原本 就 不 存在 时 ， 根 据 业 务 需求 有 时 需要 返回 所 有 行 ， 有 时 
需要 返回 空 集 。 需 要 返回 所 有 行 时 感觉 这 类 似 于 “不 战 而 胜 ”)， 需 要 使 
] ALL 谓词 ， 或 者 使 用 COALESCE 函数 将 极 值 函数 返回 的 NULL 处 理 成 合 
适 的 值 。 






















































































ga 





6. 聚合 函数 和 NULL 

实际 上 ， 当 输入 为 空 表 时 返回 NULL 的 不 只 是 极 值 函 数 ，cCOUNT 以 外 
的 聚合 函数 也 是 如 此 。 所 以 下 面 这 条 看 似 普通 的 SQL 语句 也 会 带 来 意 想 
不 到 的 结果 。 













































































-- 查询 比 住 在 东京 的 学 生 的 平均 年 龄 还 要 小 的 A 班 学 生 的 SQL 语句 ? 
SELECT * 
FROM Class A 
WHERE age < ( SELECT AVG (age) 
FROM Class B 
WHERE city = ' 东 京 ' ) ; 














没有 住 在 东京 的 学 生 时 ，AVG 函数 返回 NULL。 因 此 ， 外 侧 的 wHERE 
子 句 永远 是 unknown， 也 就 查询 不 到 行 。 使 用 suM 也 是 一 样 。 这 种 情况 的 
解决 方法 只 有 两 种 ， 要 么 把 NULL 改写 成 具体 值 ， 要 么 闭 上 眼睛 接受 
NULL。 但 是 如 果 某 列 有 NoT NULL 约束 ， 而 我 们 需要 往 其 中 插入 平均 值 或 
汇总 值 ， 那 么 就 只 能 选择 将 NULL 改写 成 具体 值 了 。 
聚合 函数 和 极 值 函 数 的 这 个 陷阱 是 由 函数 自身 带 来 的 ， 所 以 仅 靠 为 具 
体 列 加 上 NoT NULL 约束 是 无 法 从 根本 上 消除 的 。 因 此 我 们 在 编写 SQL 
代码 的 时 候 需要 特别 注意 。 


























































































































































































































本 节 ， 我 们 针对 编写 SQL 时 NULL 和 三 值 逻辑 带 来 的 诸多 问题 ， 从 理 
论 和 实践 两 方面 分 别 进行 了 探讨 。 因 为 这 个 话题 有 些 复 杂 ， 所 以 之 前 从 未 
了 解 过 SQL 三 值 逻辑 的 人 可 能 会 觉得 非常 混乱 。 最 后 这 里 ， 我 们 再 次 整 
里 一 下 本 节 要 点 。 







































































1. NULL 不 是 值 。 


2. 因为 NULL 不 是 值 ， 所 以 不 能 对 其 使 用 谓词 。 
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3. 对 NULL 使 用 谓词 后 的 结果 是 unknown。 








4. unknown 参与 到 逻辑 运算 时 ，SQL 的 运行 会 和 预想 的 不 一 样 。 


< 























5. 按 步骤 追踪 SQL 的 执行 过 程 能 有 效应 对 4 中 的 情 


网 。 











最 后 说 明 一 下 ， 要 想 解决 NULL 带 来 的 各 种 问题 ， 最 佳 方法 应 该 是 往 
表 里 添 加 NoT NULL 约束 来 尽力 排除 NOLL。 这 样 就 可 以 回 到 美妙 的 二 值 逻 
辑 世 界 〈 虽 然 并 不 能 完全 回 到 )。 有 具体 方法 将 在 本 书 2-9 节 里 介绍 。 









































此 外 ， 如 果 大 家 对 这 个 虽然 麻烦 但 是 越 看 越 有 兴趣 的 话题 想 更 进一步 














在 


























逻辑 学 中 的 意义 ， 应 该 会 发 现 比较 有 意 ; 

















ji 的 资料 。 





再 结合 本 书 2-8 节 | 
的 内 容 。 


A ] 以 参 匠 下 奋 





























将 要 介绍 的 三 值 逻 辑 在 





1. Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人 民 邮 电 出 版 社 ，2013 年 ) 


























和 INO 谓词 ”和 22.1 节 “EXISTS 和 NULL”。 


强烈 推荐 阅读 第 13 章 “NULL : SQL 中 的 缺失 数据 ”21.3 节 “NULL 


2. C.J. Date,《 深 度 探 索 关 系数 据 库 : 实践 者 的 关系 理论 》( 电子 工业 出 


版 社 ，2007 年 ) 


C.J. Date 在 书 中 明确 地 说 明了 他 反对 NULL 和 三 值 逻辑 的 主张 。 与 Joe 








Celko 的 书 相 比 ， 这 本 书 更 注重 理论 方面 
的 话 也 出 自 这 本 书 。 



































[的 内 容 。 本 节 开 头 的 C.J. Date 


3. 户 田 山 和 久 ,《 逻 辑 学 的 创立 )@ ( 名 古 屋 大 学 出 版 会 ，2000 年 ) 


原 书 名 为 『 论 理 学 在 2《 吾 上 尚 
无 中 文 版 。 一 一 译 者 注 





4. 





和 为 逻辑 学 的 入 门 书 ， 该 书 难 
要 注意 ， 书 中 的 三 值 逻 辑 与 SQL 中 采用 的 逻辑 体系 还 是 
作为 谓词 逻辑 的 入 门 书 来 说 ， 该 书 值得 推荐 。 
初级 C 语 言 Q&A (3)【0 和 NULL】 
(http://www.st.rim.or.jp/~phinloda/cqa/cqa3.html) 

Q : 我 曾经 见 到 过 使 用 o 代 蔡 空 指针 的 代码 ， 为 什么 可 以 



























































得 地 稍微 介绍 了 三 值 逻辑 的 内 容 。 但 是 需 





有 一 些 不 同 的 。 





这 样 用 呢 ? 








A : 原本 该 出 现 指 针 的 地 方 如 果 出 现 了 0， 编 译 器 会 把 它 当 成 空 指针 来 








理解 。 比 如 像 i£f (p != 0) 这 样 写 时 ， 如 果 p 是 指针 类 
为 右边 也 是 指针 ， 所 以 就 把 o 当成 空 指针 来 处 理 了 。 








1-4 HAVING 子 句 的 力量 












区 出彩 的 配角 


HAVING 子 句 是 SQL 里 一 个 非常 重要 的 功能 ， 但 其 价值 并 没有 被 人 们 深刻 地 认识 到 。 另 外 ， 它 还 是 
理解 SQL 面向 集合 这 一 本 质 的 关键 ， 应 用 范围 非常 广泛 。 本 节 ， 我 们 将 学 习 HAVING 子 句 的 用 法 ， 进 而 


| HAVING 子 名 的 力量 


理解 面向 集合 语言 的 第 二 个 特性 一 一 以 集合 为 单位 进行 操作 。 





于 从 面向 过 程 思维 向 面向 集合 

















思维 转换 的 方法 ， 本 书 2-6 节 有 

















SQL 与 通常 的 语言 不 一 样 ， 这 种 感觉 的 强烈 程度 可 能 因 人 而 异 ， 但 是 
对 于 一 开始 就 从 面向 过 程 语言 学 起 的 正统 的 程序 员 或 系统 工程 师 来 说 ， 可 


能 感觉 会 比较 强烈 。 


























SQL 给 人 感觉 与 众 不 同 的 原因 有 儿 个 。 第 一 个 原因 是 ， 它 是 一 种 基于 














个 原因 的 影响 力 不 亚 于 第 





























“面向 集合 ”思想 设计 的 语言 ， 同 样 具备 这 种 设计 思 

















想 的 语言 很 少 ， 第 二 


个 ， 即 最 开始 学 习 过 了 某 种 理念 的 语言 后 ， 心 














理 上 会 形成 思维 定式 ， 从 而 妨碍 我 们 理解 另 一 种 理念 的 语言 9。 


本 节 ， 我 们 将 学 习 一 下 HAVING 子 句 的 各 种 使 
下 面向 过 程 语言 和 SQL 在 思考 方式 上 的 区 别 。 通 过 比较 ， 我 们 会 察觉 到 
自己 在 学 习 面 向 过 程 语言 时 下 意识 形成 的 思维 定式 ， 进 而 更 好 地 适应 面向 
集合 的 思想 。 
在 1-2 节 ， 我 们 了 解 了 一 些 SQL 作为 面向 集合 
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pt 




















继续 讨论 这 一 话题 。 上 次 我 们 本 
这 一 基本 思想 ， 这 次 将 更 进一步 地 学 习 “ 以 集合 为 单位 进行 操作 ”这 一 




















方法 ， 同 时 也 比较 一 





语言 的 特征 ， 本 节 将 








点 讨论 了 “将 表 看 人 








特征 。 前 下 








i 几 节 并 非 学 习 本 节 








FE 抽 象 度 较 高 的 集合 ” 

















的 前 提 ， 但 是 因为 本 节 会 用 到 CAsE 表达 


式 和 自 连 接 等 内 容 ， 所 以 如 果 读 过 1-1 节 和 1-2 节 ， 理 解 起 来 可 能 会 





深刻 。 
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第 1 章 神奇 的 SOL 


那么 , 我们 赶快 通过 例题 往 下 学 习 吧 。 假 设 现 有 一 张 带 有 “连续 编号 ” 
列 的 表 ， 如 表 SeqTbl 所 示 。 我 们 在 使 用 自动 分 配 的 数值 时 经 常会 见 到 像 
这 样 的 表 。 





























SeqTbl 


seq ( 连续 编号 ) name ( 名 字 ) 





























虽然 编号 那 一 列 叫 作 连续 编号 ， 但 实际 上 编号 并 不 是 连续 的 ， 缺 少 了 
4 和 7。 我 们 要 做 的 第 一 件 事 ， 就 是 查询 这 张 表 里 是 否 存在 数据 缺失 。 如 
果 像 本 例 这 样 ， 数 据 只 有 几 行 ， 那 么 我 们 一 下 子 就 外 
数据 有 100 万 行 ， 应 该 就 不 会 有 人 用 肉眼 去 查询 了 吧 。 

如 果 这 张 表 的 数据 存储 在 文件 里 ， 那 么 用 面向 过 程 语言 查询 时 ， 步 又 
应 该 像 下 面 这样 。 















































GCC 
站 
此 
说 
莫 
讨 
并 
油 



















































































1. 对 “连续 编号 ” 列 按 升序 或 者 降序 进行 排序 。 
2. 循环 比较 每 一 行 和 下 一 行 的 编号 。 

















步骤 很 简单 ， 但 是 也 体现 了 面向 过 程 语言 和 文件 系统 处 理 问题 的 特 

点 : 文件 的 记录 是 有 顺序 的 , 为 了 操作 记录 ,编程 语言 需要 对 记录 进行 排序 。 

ED 而 表 的 记录 是 没有 顺序 的 ， 而 且 SQL 也 没有 排序 的 运算 符 @。SQL 会 将 

sos 多 条 记录 作为 一 个 集合 来 处 理 ， 因 此 如 果 将 表 整 体 看 作 一 个 集合 ， 就 可 以 
双生 部 "oma ux 家 。” 像 下 面 这 样 解决 这 个 问题 。 

查询 结果 时 很 方便 ， 但 是 它 本 身 





















































并 不 是 关系 运算 符 。 ( Database -- 如 果 有 查询 结果 ， 说明 存在 缺失 的 编号 
in Depth: AR Theory 人 SELECT ' 存 在 缺失 的 编号 ' AS gap 
Practitioners, O’Reilly Media, 

2005) FROM SeqTbl 


HAVING COUNT(*) <> MAX (seq); 
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' 存 在 缺失 的 编号 ， 











如 果 这 个 查询 结果 有 1 行 ， 说 明 存 在 缺失 的 编号 ， 如果 !1 行 都 没有 
站 是 因为 ， 如 果 用 couNT(*) 统计 出 来 的 行 数 等 
于 “连续 编号 ” 列 的 最 大 值 ， 就 说 明 编号 从 开始 到 最 后 是 连续 递增 的 ， 中 
间 没 有 缺失 。 如 果 有 缺失 ，cCOUNT(*) 会 小 于 MAX (seq)， 这 样 HAVING 子 
句 就 变 成 真 了 。 这 个 解法 只 需要 3 行 代 码 ， 十 分 优雅 。 

如 果 用 集合 论 的 语言 来 描述 ， 那 么 这 个 查询 所 做 的 事情 就 是 检查 自然 
数 集合 和 SeqTbl 集合 之 间 是 否 存在 一 一 映射 (又 称 双 射 )。 换 句 话说 ， 就 
是 像 下 图 展示 的 那样 ，MAX (seq) 计算 的 ， 是 由 “到 seqg 最 大 值 为 止 的 没 
有 缺失 的 连续 编号 〈 即 自然 数 )” 构 成 的 集合 的 元 素 个 数 ， 而 COUNT(*) 计 
算 的 是 SeqTbl 这 张 表 里 实 际 的 元 素 个 数 〈 即 行 数 )。 
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有 多 余 的 元 素 
集合 A: MAX(seq) = 2 A OS 
(自然 数 集 合 ) 
集合 B: COUNT(*) = 128598 
(SeqTbl 集 合 ) 





























于 是 ， 如 果 像 上 图 这 样 存在 缺失 的 编号 ， 那 么 集合 A 和 集合 B 中 的 
元 素 个 数 肯定 是 不 一 样 的 。 
也 许 大 家 注意 到 了 ， 上 面 的 SQL 语句 里 没有 GROUP BY 子 句 ， 此 时 
整 张 表 会 被 聚合 为 一 行 。 这 种 情况 下 HAVING 子 句 也 是 可 以 使 用 的 。 在 以 
ee 
ED 现在 也 有 人 会 有 这 样 的 误解 。 但 是 ， 按 照 现在 的 SQL 标准 来 说 ，HAVING 
攻 可 民众 鸭 省 殉 宇 洒 本 放行 了 子 名 是 可 以 单独 使 用 的 9。 不 过 这 种 情况 下 ， 就 不 能 在 seuscr 子 句 里 可 


GROUP BY 操作 ， 只 不 过 省 略 了 


seove 本 子 句 。 如 果 使 用 宣 D 。 ”用 原来 的 表 里 的 列 了 ， 要 么 就 得 像 示例 里 一 样 使 用 常量 ， 要 么 就 得 像 
函数 时 不 指定 PARTITION BY 子 
句 ， 就 是 把 整个 表 当 作 一 个 分 区 SELECT COUNT (*) 这 样 使 用 聚合 函 
来 处 理 的 ， 思 路 与 这 里 也 是 一 样 
的 。 详 傅 请 参考 本 书 2.5 节 。 现在 ， 我 们 已 经 知道 这 张 表 里 存在 缺失 的 编号 了 。 接 下 来 ， 再 来 查询 
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一 下 缺失 编号 的 最 小 值 。 求 最 小 值 要 用 MIN 函数 ， 因 此 我 们 像 下 面 这 样 写 
SQL 语句 。 











-- 查询 缺失 编号 的 最 小 值 
SELECT MIN(seq + 1) AS gap 
EROM SedqTb1 
WHERE (sedq+ 1) NOT IN ( SELECT seq FROM SedqTbl1) : 





图 执行 结果 


gap 


4 





























这 里 也 是 只 有 3 行 代码 。 使 用 NoT IN 进行 的 子 查 询 针 对 某 一 个 编号 ， 

检查 了 比 它 大 1 的 编号 是 否 存在 于 表 中 。 然 后 ,“3, 莱 露 ”“6, 玛丽 ”“8, 本 ” 
这 几 行 因为 找 不 到 紧 接着 的 下 一 个 编号 ， 所 以 子 查 询 的 结果 为 真 。 如 果 没 
有 缺失 的 编号 ， 则 查询 到 的 结果 是 最 大 编号 8 的 下 一 个 编号 9。 前面 已 经 
说 过 了 ， 表 和 文件 不 一 样 ， 记 录 是 没有 顺序 的 〈 表 SeqTbl 里 的 编号 按 升 
序 显示 只 是 为 了 方便 查看 )。 因 此 ， 像 这 条 语句 一 样 进行 行 与 行 之 间 的 比 
较 时 其 实 是 不 进行 排序 的 。 
贰 便 说 一 下 ， 如 果 表 SeqTbl 里 包含 NULL， 那 么 这 条 SQL 语句 的 查 
询 结果 就 不 正确 了 。 如 果 不 明 白 为 什么 ， 可 以 参考 1-3 节 。 
上 面 展 示 了 通过 SQL 语句 查询 缺失 编号 的 最 基本 的 思路 ， 然 而 这 个 
查询 还 不 够 周全 ， 并 不 能 涵盖 所 有 情况 。 例 如 ， 如 果 表 SeqTbl 里 没有 编 
号 1， 那 么 缺失 编号 的 最 小 值 应 该 是 1， 但 是 这 两 条 SQL 语句 都 不 能 得 出 
正确 的 结果 (请 试 着 自己 模拟 分 析 一 下 ， 推 测 出 可 能 的 结果 )。 关 于 查询 
缺失 编号 的 更 完备 的 做 法 ， 我 们 将 在 1-10 节 学 习 。 






































































































































































































































































































































量 用 HAVING 子 句 进行 子 查询 :求人 数 

托马斯 . 杰斐逊 创立 的 美国 名 校 弗 吉 尼 亚 大 学 曾经 在 1984 年 发 表 报 
告 称 ， 修 辞 交流 专业 的 毕业 生 首 份 工作 的 平均 工资 达到 了 55 000 美元 ， 
按 当时 1 美元 = 240 日 元 的 汇率 来 算 ， 大 约 是 1320 万 日 元 。 乍 一 看 好 像 
毕业 生 大 多 都 能 拿 到 很 高 的 工资 ， 然 而 这 个 数字 背后 却 有 一 些 玄机 。 因 为 
















































































注 @ 
这 个 故事 取 自 L.Gonick 和 WW. 
Smith 的 著作 《漫画 统计 学 入 门 》 
( 梁 杰 译 ， 辽 宁 教 育 出 版 社 ，2002 


年 jo 
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这 一 届 毕 业 生 里 包含 了 被 称 为 * 校 史上 最 伟大 选手 ”的 NBA 新星 拉 尔 夫 : 桑 






































像 表 Graduates 这 样 。 





Graduates ( 毕业 生 表 ) 


name ( 名字) income (收入 ) 
桑 普 森 400 000 

迈克 30 000 

怀特 20 000 

阿诺德 20 000 

史密斯 20 000 























劳伦斯 15 000 
台 德 逊 15 000 
肯特 10 000 
贝克 10 000 
斯 科 特 10 000 





















































普 森 8。 也 就 是 说 ， 大 学 用 来 统计 的 毕业 生 表 中 存在 极端 的 情况 ， 大 概 就 








从 这 个 例子 可 以 看 出 ， 简 单 地 求 平 均值 有 一 个 缺点 ， 那 就 是 很 容易 
受到 离 群 值 Coutlier) 的 影响 。 这 种 时 候 就 必须 使 用 更 能 准确 反映 出 群 


























体 趋 势 的 指标 一 一 众 数 (mode) 就 是 其 中 之 一 。 它 






































指 的 是 在 群体 中 出 现 





次 数 最 多 的 值 ， 因 此 在 日 语 中 也 被 称 为 流行 值 。 就 上 面 的 表 Graduates 


























来 说 ， 众 数 就 是 10 000 和 20 000 这 两 个 值 。 接 下 来 我 们 思考 一 下 如 何 











用 SQL 语句 求 众 数 。 














过 
| 























比 DBMS 已 经 提供 了 用 来 求 众 数 的 函数 ， 但 其 实用 标准 SQL 也 很 






























































个 集合 里 找 出 元 素 个 数 最 多 的 集合 。 用 SQL 这 么 操 
一 样 简单 。 




















-- 求 众 数 的 SQL 语句 (1) : 使 用 谓词 
SELECIInCcome CouNn(*) A enEe 
FROM Graduates 
GROUP BY income 
HAVING COUNT(*) >= AD ( SELECT COUNT (*) 
FROM Graduates 
GROUP BY income); 











简单 。 思 路 是 将 收入 相同 的 毕业 生 汇总 到 一 个 集合 里 ， 然 后 从 汇总 后 的 各 














作 集 合 正如 探 喜 取 物 
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国 执 行 结果 


income cnt 




















GROUP BY 子 句 的 作用 是 根据 最 初 的 集合 生成 若干 个 子 集 (类 似 于 1-2 
节 介 绍 过 的 ， 生 成 若干 个 递归 子 集 以 进行 排序 )。 因 此 ， 将 收入 (income) 
作为 GROUP BY 的 列 时 ， 将 得 到 S1 ~ S5 这 样 5 个 子 集 ， 如 下 图 所 示 。 





























图 将 收入 ( income ) 作为 GROUP BY 的 列 时 得 到 的 5 个 子 集 


S0: Graduates 






S1: 400 000 S2: 30 000 


S3: 20 000 






S4: 15 000 S5:， 10 000 


想 要 的 是 S3 和 S5 











这 几 个 子 集 里 ， 元 素数 最 多 的 是 S3 和 S5， 都 是 3 个 元 素 ， 因 此 查询 
的 结果 也 是 这 2 个 集合 。 

补充 一 点 ，1-3 节 提 到 过 ALL 谓词 用 于 NULL 或 空 集 时 会 出 现 问题 ， 
可 以 用 极 值 函数 来 代 奉 。 这 里 要 求 的 是 元 素数 最 多 的 集合 ， 因 此 可 以 用 




























































































-- 求 众 数 的 SQL 语句 (2) : 使 用 极 值 函数 
SELECT income, COUNT(*) AS cnt 
FROM Graduates 
GROUP BY income 
HAVING COUNT(*) >= ( SELECT MAX (cnt) 
RROMIOSELDECTIEOUNT( NAS ene 
FROM Graduates 
GROUP BY income) TMP ) 














’ 




















如 果 表 Graduates 是 存储 在 文件 里 的 ， 需 要 用 面向 过 程 语 言 的 方法 来 
求 众 数 时 ， 又 该 怎么 做 昵 ? 恐怕 要 先 按 收入 进行 排序 ， 然 后 一 行 一 行 地 循 
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ol® 

















环 处 理 和 中 断 控制 , 遇 到 某 个 收入 值 的 人 数 超出 前 面 一 个 收入 值 的 人 数 时 ， 
将 新 的 收入 值 赋 给 另 一 个 变量 并 保存 ， 以 便 后 续 使 用 。 我 们 能 发 现 ， 与 这 
种 做 法 相 比 ， 使 用 SQL 既 不 需要 循环 也 不 需要 赋值 。 




































































当 平均 值 不 可 信 时 ， 与 众 数 一 样 经 常 被 用 到 的 另 一 个 指标 是 中 位 数 
(median)。 它 指 的 是 将 集合 中 的 元 素 按 升序 排列 后 恰好 位 于 正中 间 的 元 素 。 
如 果 集 合 的 元 素 个 数 为 偶数 ， 则 取 中 间 两 个 元 素 的 平均 值 作为 中 位 数 。 前 
甸 的 表 Graduates 里 有 10 行 数据 ， 所 以 我 们 取 “ 史 密斯 ,20 000” 和 “ 劳 
伦 斯 , 15 000” 的 平均 值 17 500 作为 中 位 数 。 

如 果 用 SQL， 该 如 何 求 中 位 数 呢 ? 像 面 向 过 程 语言 的 处 理 方法 那样 排 
完 序 逐 行 比较 ， 显 然 是 不 合理 的 。 所 以 我 们 来 思考 一 下 如 何 用 面向 集合 贡 
方式 ， 来 查询 位 于 集合 正中 间 的 元 素 。 

做 法 是 , 将 集合 里 的 元 素 按照 大 小 分 为 上 半 部 分 和 下 半 部 分 两 个 子 集 ， 
同时 让 这 2 个 子 集 共同 拥有 集合 正中 间 的 元 素 。 这 样 ， 共 同 部 分 的 元 素 的 
平均 值 就 是 中 位 数 ， 思 路 如 下 图 所 示 。 


而 用 HAVING 子 句 进行 自 连接 : 求 中 位 数 

























































































































































































































































































图 中 位 数 求法 的 思路 


SO0:Graduates 










:上 半 部 分 + 1 个 





10000 10000 10000 15000 15000 20000 20000 20000 30000 400 000 


共同 部 分 元 素 的 平均 值 
(15 000+20 000) / 2= 17 500 
就 是 中 位 数 

















像 这 样 需要 根据 大 小 关系 生成 子 集 时 ， 就 轮 到 非 等 值 自 连 接 出 场 了 。 





-- 求 中 位 数 的 SQL 语句 ; 在 HAVING 子 句 中 使 用 非 等 值 自 连接 
SELECT AVG(DISTINCT income) 
FROM (SELECT T1.income 
FROM Graduates Tl1, Graduates T2 
GROUP BY T1.income 
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--S1 的 条 件 


HAVING SUM(CASE WHEN 
COUNT 


二 


--S2 的 条 件 


AND SUM(CASE WHEN 
COUNT 


三 





这 条 SQL 语句 的 要 
个 等 号 是 有 意 地 加 上 的 。 加 上 
S2， en 文 2 个 子 自 








也 就 无 法 求 出 中 位 数 了 。 














汪 























L ee 笔 








更 通用 的 0 看 句 即 适 ) 
需要 的 。 这 道 例 题 的 解法 运 
等 SQ 


点 在 于 


C2 








比较 条 件 “>= COUNT(* 


T2.income >= T1L.income THEN 1 ELSE 0 END) 


T2.income <= T1L.income THEN 1 ELSE 0 END) 
(313/20) 


TMP; 























汀 


结果 只 有 一 条 数据 ， 所 以 





拥 






































)/2” 里 的 等 号 ， 
等 号 并 不 是 为 了 清晰 地 分 开 子 集 S1 
共同 部 分 。 如 果 去 掉 等 号 , 将 条 件 改 成 “> 
COUNT(*) /2” 那么 当 元 素 个 数 为 侦 数 时 ，S1 和 S2 就 没有 共 


和 


同 的 元 素 了 ， 














如 果 事 先知 道 集 合 的 元 素 个 数 是 奇数 ， 那 么 因为 FROM 子 句 里 的 子 
层 的 AVG 函数 可 以 去 掉 。 但 是 ， 如 果 要 写 
日 于 元 素 个 数 为 偶数 这 种 情况 )，AveG 函数 还 





























觉得 ; 





见 何 







































































查 
出 


三 
候 





了 CASE 表达 式 、 自 连接 以 及 HAVING 子 句 
还 是 很 棒 的 。 

在 发 表 这 个 有 些 问题 的 平均 工资 时 ， 弗 吉 尼 亚 大 学 并 没有 公布 中 位 
等 指标 。 如 果 在 各 位 《或 者 各 位 的 子女 ) 选择 学 校 时 ， 一 个 学 校 不 仅 提供 


数 














了 与 升学 率 和 就 业 情 况 相 关 的 平均 值 ， 还 提供 了 众 数 和 中 位 数 ， 那 么 也 许 








我 们 还 是 可 以 相信 这 所 学 校 是 诚实 的 。 


COUNT 函数 的 使 用 方法 有 coUNT(*) 和 couNT( 列 名 ) 两 种 ， 它 们 的 
别 有 两 个 : 第 一 个 是 性 能 上 的 区 别 ; 








而 COUNT( 列 名 ) 与 其 他 








x 
聚合 函 








第 二 个 区 别 也 可 以 这 么 














数 一 样 


COUNT( 列 名 ) 查询 的 则 不 一 定 是 。 
对 一 张 全 是 NULL 的 表 NullTbl 执行 SELECT 子 句 就 能 清楚 地 知道 





者 的 区 别 了 。 





第 二 个 是 coUNT(*) 可 以 用 于 NULI 

















,要 先 排除 挥 NULL 的 行 再 进行 统计 。 


区 


ng 





























理解 : coUNT(*) 查询 的 是 所 有 行 的 数目 ， 而 
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NulITbl 


coL1 ( 列 1) 

















-- 在 对 包含 NULL 的 列 使 用 时 ，cOUNT (*) 和 COUNT ( 列 名 ) 的 查询 结果 是 不 同 的 
SEEEECH COUNLE( COUNT (eon 
FROM NullTb]; 











国 执 行 结果 














对 于 这 两 个 区 别 ， 在 编写 SQL 语句 时 我 们 当然 需要 多 加 留意 ， 但 是 
如 果 能 好 好 利用 ， 它 们 也 可 以 发 挥 令 人 意 想 不 到 的 作用 。 例 如 ， 这 里 有 一 
张 存储 了 学 生 提交 报告 的 日 期 的 表 Students， 如 下 所 示 。 





























五 















































Students 


student_ id ( 学 号 ID ) dpt ( 学 院 ) sbmt_date ( 提交 日 期 ) 
2005-10-10 
2005-09-22 


可 








本 





学 院 





可 


2005-09-10 
2005-09-22 





可 














| 可 


2005-09-25 














学 生 提 交 报 告 后 “提交 日 期 ” 列 会 被 写 入 日 期 ， 而 提交 之 前 是 
NULL。 现 在 我 们 需要 从 这 张 表 里 找 出 哪些 学 院 的 学 生 全 部 都 提交 了 报告 ( 即 
里 学 院 、 经 济 学 院 )。 如 果 只 是 用 WHERE sbmt_gdate IS NOT NULL 这 样 
的 条 件 查 询 ， 文 学 院 也 会 被 包含 进来 ， 结 果 就 不 正确 了 《因为 文学 院 学 号 
为 102 的 学 生还 没有 提交 )。 正 确 的 做 法 是 ， 以 “学 院 ” 为 GROUP BY 的 
列 生 成 下 面 这 样 的 子 集 。 
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图 所 有 学 生 都 提交 了 报告 的 学 院 有 哪些 


SO:Students 想 要 的 是 S1 和 S4 










S1: 理 学 院 S2: 文 学 院 S3: 工 学 院 S4: 经 济 学 院 


NULL 
2005-09-10 2005-09-25 
2005-09-22 


COUNT(*)=2 COUNT(x)=3 COUNT(*)=1 COUNT(*)=1 
COUNT(sbmt_date)=2 COUNT(sbmt_date)=2 COUNT(sbmt_date)=0 COUNT(sbmt_date)=1 










2005-10-10 
2005-09-22 









































这 样 生 成 的 4 个 子 集 里 ， 我 们 想 要 的 是 S1 和 S4。 那 么 ， 这 2 个 子 集 具 
备 而 其 他 子 集 不 具备 的 特征 是 什么 呢 ? 答案 是 “coUuNT(*) 和 COUNT (sbmt _ 
date) 结果 一 致 ”。 这 是 因为 S2 和 S3 这 2 个 子 集 里 存在 NULL。 因 此 ， 
案 应 该 是 下 面 这 样 。 

































































-- 查询 “提交 日 期 ” 列 内 不 包含 NULL 的 学 院 (1) : 使 用 COUNT 函数 
SELECT dpt 
FROM Students 
GROUP BY dpt 
HAVING COUNT(*) = COUNT (sbmt date); 











图 执行 结果 















































当然 ， 使 用 casE 表达 式 也 可 以 实现 同样 的 功能 ， 而 且 更 加 通用 。 























-- 查询 “提交 日 期 ” 列 内 不 包含 NULL 的 学 院 (2) : 使 用 CASE 表达 式 
SELECT dpt 
FROM Students 
GROUP BY dpt 
HAVING COUNT(*) = SUM(CASE WHEN sbmt date IS NOT NULL 
THEN 1 
ELSE 0 END); 




















可 以 看 到 ， 使 用 casE 表达 式 时 ， 将 “提交 日 期 ”不 是 NULL 的 行 标 
记 为 1， 将 “提交 日 期 ”为 NULL 的 行 标记 为 0。 在 这 里 ，caASE 表达 式 的 

















注 @ 








分 析 是 市 场 分 析 领 域 常 | 

















的 一 种 


常 被 一 起 


律 。 有 





酒 和 纸 
许 是 因 





想 顺 便 买 些 啤酒 回去 )， 
将 啤酒 和 纸 
架 ， 从 而 提升 


市 发 现 ， 


分 析 手 段 ， 用 来 发 现 “ 经 
购买 的 商品 ”具有 的 规 
一 个 有 名 的 例子 某 家 超 
虽然 不 知 为 什么 ， 但 啤 
尿 裤 经 常 被 一 起 购买 ( 也 
为 来 买 纸尿裤 的 爸爸 都 会 
于 是 便 
尿 裤 摆 在 相 邻 的 货 
了 销售 额 。 









































作用 相当 于 
Ba 


进行 

















判断 的 函数 ， 用 来 判断 
的 函数 我 们 称 





。 这 样 




















合 函 


的 角度 来 将 它 














在 练习 题 1-4-2 中 进行 练习 )。 
像 这 样 ，HAVING 子 句 可 以 
数 或 cASE 表达 式 一 起 使 用 时 具有 更 强大 的 威力 。 
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各 个 元 素 (= 行 ) 是 





否 属于 满足 ] 


为 特征 函数 (characteristic function )， 


称 为 定义 函数 (关于 特 和 









































E 函 数 的 














j 作 研究 集合 性 质 的 工 

















发 。$ 用 关系 除法 运算 进行 购物 篮 分 析 


接 下 来 ， 我 们 假设 
以 及 各 个 店铺 的 库存 管理 表 ShopItems。 


结构 。 


ltems 





及 有 这 
































Shopltems 


shop ( 店铺 ) 





ly 














这 样 两 张 表 : 全 





















































这 次 我 们 要 
要 查询 的 是 仙人 台 店 和 东京 



































oI oo 














































































































个 问题 在 实际 工作 中 的 原型 








店 。 大 阪 店 没有 啤酒 ， 


这 是 关系 模型 中 经 常 












































是 数据 挖 和 





技术 中 





但 































































































的 “购物 篮 分 析 ”98， 但 


] 法 ,i 





i 








连锁 折扣 店 的 商品 表 Items， 
见 到 的 表 


查询 的 是 囊括 了 表 Items 中 所 有 商品 的 店铺 。 也 就 是 说 ， 
所 以 不 是 我 们 的 目标 。 


这 






































是 . 只 
下 个 


要 改变 一 下 它 的 形式 ， 就 可 以 把 它 应 用 到 很 多 业务 场景 。 例 如 在 医疗 领域 
查询 同时 服用 多 种 药物 的 患者 ， 或 者 从 员工 技术 资料 库 里 查询 UNIX 和 
Oracle 两 者 都 精通 的 程序 员 ， 等 等 。 

遇 到 像 表 ShopItems 这 种 一 个 实体 (在 这 里 是 店铺 ) 的 信息 分 散在 多 
行 的 情况 时 ， 仅 仅 在 wHERE 子 句 里 通过 oR 或 者 IN 指定 条 件 是 无 法 得 到 
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正确 结果 的 。 这 是 因为 ， 在 WHERE 子 句 里 指定 的 条 件 只 对 表 里 的 某 一 行 数 
据 有 效 。 





























-- 查询 啤酒 、 纸 尿 裤 和 自行 车 同时 在 库 的 店铺 : 错误 的 SQL 语句 

SELECT DISTINCT shop 
FROM ShopItems 

WHERE item IN (SELECT item FROM Items); 


























图 执行 结果 








请 词 IN 的 条 件 其 实 只 是 指定 了 “店内 有 啤酒 或 者 纸尿裤 或 者 自行 车 
的 店铺 ” 所 以 店铺 只 要 有 这 三 种 商品 中 的 任何 一 种 ， 就 会 出 现在 查询 结 
果 里 。 那 么 该 如 何 针对 多 行 数据 〈 或 者 说 针对 集合 ) 设 定 查询 条 件 呢 ? 也 
许 大 家 已 经 知道 了 ， 那 就 是 需要 用 HAVING 子 句 来 解决 这 个 问题 。SQL 语 
句 可 以 像 下 面 这 样 写 。 































































































-- 查询 啤酒 、 纸 尿 实 和 自行 车 同时 在 库 的 店铺 , 正确 的 SQL 语句 
SEEBCLIlST Shop 
EROM Shopltenmse sitemsar 
WHERE SI.item = I.item 
GROUBPBY ST snop 
HAVING COUNT(SI.item) = (SELECT COUNT (item) FROM Items); 






































图 执行 结果 





HAVING 子 句 的 子 查 询 (SELECT COUNT(item) FROM Items) 的 返回 
值 是 常量 3。 因 此， 对 商品 表 和 店铺 的 库存 管理 表 进 行 连接 操作 后 结果 是 
3 行 的 店铺 会 被 选中 ， 对 没有 啤酒 的 大 阪 店 进行 连接 操作 后 结果 是 2 行 ， 
所 以 大 阪 店 不 会 被 选中 ， 而 仙台 店 则 因为 (仙台 , 窗帘 〉 的 行 在 表 连 接 时 
会 被 排除 掉 ， 所 以 也 会 被 选中 ， 男 外 ， 东 京 店 则 因为 连接 后 结果 是 3 行 ， 
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所 以 当然 也 会 被 选中 。 

然而 请 注意 ， 如 果 把 HAVING 子 句 改 成 HAVING COUNT(SI.item) = 
COUNT(I.item) ， 结 果 就 不 对 了 。 如 果 使 用 这 个 条 件 ， 仙 台 、 东 京 、 大 孤 
这 3 个 店铺 都 会 被 选中 。 这 是 因为 ， 受 到 连接 操作 的 影响 ，cCoUNT(I. 
item) 的 值 和 表 Items 原本 的 行 数 不 一 样 了 。 下 面 的 执行 结果 一 目 了 然 。 














-- COUNT (I.item) 的 值 已 经 不 一 定 是 3 了 

SELECT SI.shop, COUNT(SI.item), COUNT(I.item) 
EROM Sheopleemse sr litemsor 

WHERE SI.item = I.item 

GROUPOBYNS TNShop, 





图 执行 结果 





仙台 3 本 
东京 3 3 
大 阪 2 


还 








问题 解决 了 。 那 么 接 下 来 我 们 把 条 件 变 一 下 ， 看 看 如 何 排除 掉 仙 台 
(仙台 店 的 仓库 中 存在 “窗帘 ” 但 商品 表 里 没有 “窗帘 ”)， 让 结果 里 只 
现 东 京 店 。 这 类 问题 被 称 为 “精确 关系 除法 ”(exact relational division )， 
即 只 选择 没有 剩余 商品 的 店铺 (与 此 相对 , 前 一 个 问题 被 称 为 “ 带 余 除法 ” 


(division with a remainder))。 解 决 这 个 问题 我 们 需要 使 用 外 连接 。 


























度 















































-- 精确 关系 除法 运算 : 使 用 外 连接 和 COUNT 函数 
SELECT ST "shop 
FROM ShopItems SI LEFT OUTER JOIN Items I 
ON SI.item=I.item 
GROUP BY SI.shop 





HAVING COUNT(SI.item) = (SELECT COUNT(item) FROM Items) -- 条 件 1 
AND COUNT(I.item) = (SELECT COUNT(item) FROM Items);  -- 条 件 2 
图 执行 结 
shop 


东京 
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以 表 ShopItems 为 主 表 进行 外 连接 操作 后 ， 因 为 表 Items 里 不 存在 窗 
帘 和 电视 ， 所 以 连接 后 相应 行 的 “Litem” 列 是 NULL。 然 后 ， 我 们 就 可 以 
使 用 之 前 用 到 的 检查 学 生 提 交 报 告 日 期 的 coUNT 函数 的 技巧 了 。 条 件 1 会 
排除 掉 COUNT (ST.item) = 4 的 仙台 店 ， 条 件 2 会 排除 掉 COUNT (I.item) 
= 2 的 大 阪 店 CNULL 不 会 被 计数 )。 




































































图 表 Shopltems 和 表 Items 外 连接 后 的 结果 


[jale]e) Sl.item Litem 
















































































NULL |( 原本 应 该 是 窗帘 ) 














































































































NULL ( 原本 应 该 是 电视 ) 



























































一 般 来 说 ， 使 用 外 连接 时 ， 大 多 会 用 商品 表 Items 作为 主 表 进行 外 连 
接 操 作 ， 而 这 里 颠倒 了 一 下 主 从 关系 ， 表 使 用 ShopItems 作为 了 主 表 ， 这 
一 点 比较 有 趣 。 


Tt 





上 





























本 节 介 绍 的 运算 主要 是 关系 除法 运算 。 如 果 模 仿 数值 运算 的 写法 来 写 ， 可 
以 写作 ShopItems = Items。 至 于 为 什么 称 它 为 除法 运算 ， 我 们 可 以 从 除法 运算 
的 逆 运 算 乘法 运算 的 角度 来 理解 一 下 。 除 法 运算 和 乘法 运算 之 间 有 这 样 的 
关系 : 除法 运算 的 商 和 除数 的 乘积 等 于 被 除数 。 
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在 SQL 里 ， 交 又 连接 相当 于 乘法 运算 。 把 商 和 除数 ( 表 Items) 交 又 
连接 ， 然 后 求 稍 卡 儿 积 ， 就 能 得 到 表 ShopItems 的 子 集 ( 不 一 定 是 完整 的 表 
ShopItems )， 也 就 是 被 除数 。 这 就 是 “除法 运算 ”这 一 名 称 的 由 来 。 

关系 除法 运算 是 关系 代数 中 知名 度 最 低 的 运算 。 不 过 ， 在 实际 工作 中 用 到 
的 机 会 并 不 少 。 像 文中 例题 这 样 ， 应 用 场景 很 多 (很 多 时 候 都 是 不 经 意 间 就 使 
用 了 )。 关 系 除法 运算 也 是 Codd 最 初 定义 的 8 种 关系 运算 中 的 一 种 ， 也 算是 正 
宗 的 关系 运算 。 


那么 为 什么 它 不 太 为 人 所 知 呢 ? 笔者 觉得 很 大 的 一 个 原因 是 ， 关 系 除法 运 
算 的 定义 有 很 多 个 。 除 了 这 里 介绍 过 的 两 种 类 型 的 除法 运算 之 外 ，C.J. Date 还 
使 用 EXISTS 谓词 定义 了 一 种 “ 带 余 除法 运算 ， 它 和 前 面 介绍 的 除法 运算 在 处 理 
结果 上 稍微 有 点 不 同 。C.J. Date 的 除法 运算 是 在 表 Items 为 室 的 时 候 返 回 所 有 的 
店铺 ， 而 前 面 介绍 的 使 用 COUNT 函数 的 除法 运算 则 会 返回 空 。 关 系 除 法 运算 的 标 
准 化 进程 比较 缓慢 ,而 且 也 没有 专用 的 运算 符 , 所 以 时 而 会 发 生 这 样 怪异 的 现象 。 





很 多 人 觉得 HAVING 子 句 像 是 影视 剧 里 的 配角 一 样 ， 并 没有 太 多 的 出 
场 机 会 ， 仿 佛 是 一 种 附属 品 ， 从 而 轻视 了 它 。 但 是 读 过 本 节 内 容 后 ， 相 信 
大 家 就 能 明白 ，HAVING 子 句 其 实 是 非常 强大 的 ， 它 是 面向 集合 语言 的 一 
大 利器 。 特 别 是 与 CASE 表达 式 或 自 连接 等 其 他 技术 结合 使 用 更 能 发 挥 它 
的 威力 。 
















































































下 面 是 本 节 要 点 。 

1. 表 不 是 文件 ， 记 录 也 没有 顺序 ， 所 以 SQL 不 进行 排序 。 

2. SQL 不 是 面向 过 程 语 言 ， 没 有 循环 、 条 件 分 文 、 赋 值 操作 。 

3. SQL 通过 不 断 生 成 子 集 来 求 得 目标 集合 。SQL 不 像 面 向 过 程 语言 
那样 通过 画 流程 图 来 思考 问题 ， 而 是 通过 画集 合 的 关系 图 来 思考 。 

4. GROUP BY 子 句 可 以 用 来 生成 子 集 。 

5. WHERE 子 句 用 来 调查 集合 元 素 的 性 质 ， 而 HAVING 子 句 用 来 调查 集 
合 本 身 的 性 质 。 
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怎么 样 ， 是 否 领 略 到 了 面向 集合 语言 的 魅力 呢 ? 如 果 想 深入 学 习 ， 可 
以 参考 下 面 的 资料 。 
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介绍 了 关系 除法 运算 的 相关 内 容 ;“ 谜 题 57 间隔 一 一 版 本 1” 和 “ 谜 题 
58 间隔 一 一 版 本 2” 都 介绍 了 使 用 HAVING 子 句 查询 缺失 的 编号 ;“ 广 题 
64 盒子 ”介绍 了 多 维 关 系 除 法 运算 这 样 的 有 趣 内 容 。 该 书 是 理解 面向 及 
合 语言 思想 不 可 多 得 的 著作 。 
.Joe Celko, Joe Celko’s Analytics and OLAP in SQL ( Morgan 
Kaufmann Pub，2006 年 ) 
该 书 主要 讲解 了 作为 窗口 函数 工具 的 SQL， 切 入 点 很 有 趣 。 通 过 讲解 购 
物 篮 分 析 的 方法 深入 介绍 了 关系 除法 运算 。 使 用 ROW_NUMBER 函数 求 中 
位 数 的 方法 很 有 趣 ， 请 一 定 读 一 下 。 
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CD 
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@ 练 习题 1-4-1 : 修改 编号 缺失 的 检查 逻辑 ， 使 结果 总 是 返回 一 行 数据 
在 “寻找 缺失 的 编号 ”部 分 ， 我 们 写 了 一 条 SQL 语句 ， 让 程序 只 在 























存在 缺失 的 编号 时 返回 结果 。 请 将 SQL 语句 修改 成 始终 返回 一 行 结 果 ， 
即 存在 缺失 的 编号 时 返回 “存在 缺失 的 编号 ”不 存在 缺失 的 编号 时 返回 “不 
存在 缺失 的 编号 ” 


























FT 
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@ 练 习题 1-4-2 : 练习 “特征 函数 ” 
这 里 我 们 使 用 正文 中 的 表 Students， 稍 微 练 习 一 下 特征 函数 的 用 法 吧 。 
请 想 出 一 条 查询 “全 体 学 生 都 在 9 月 份 提交 了 报告 的 学 院 ” 的 SQL 语句 。 









































满足 条 件 的 只 有 经 济 学 院 。 理 学 院 学 号 为 100 的 学 生 是 10 月 份 提交 的 报告 ， 
所 以 不 满足 条 件 。 文 学 院 和 工学 院 还 有 学 生 尚 未 提交 报告 ， 所 以 也 不 满足 
条 件 。 





全 练习 题 1-4-3 : 购物 篮 分 析 问 题 的 一 般 化 

在 “用 关系 除法 运算 进行 购物 篮 分 析 ” 部 分， 返回 结果 只 选择 了 满足 

条 件 的 店铺 。 但 是 有 时 候 会 有 不 同 的 需求 ， 比 如 对 于 没有 备 齐 全 部 商品 类 

型 的 店铺 ， 我 们 也 希望 返回 的 一 览 表 能 展示 这 些 店 铺 缺 少 多 少 种 商品 。 
请 修改 正文 中 的 SQL 语句 ， 使 程序 能 够 返回 下 面 这 样 展示 了 全 部 店 

铺 的 结果 的 一 览 表 。my_item_cnt 是 店铺 的 现 有 库存 商品 种 类 数 ，qiff_ 

cnt 是 不 足 的 商品 种 类 数 。 

















仙台 3 0 
大 孤 2 1 
东京 3 0 
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> SQL 的 弱点 及 其 趋势 和 对 策 
数据 库 工程 师 经 常 面 对 的 一 个 难题 是 无 法 将 SQL 语句 的 执行 结果 转换 为 想 要 的 格式 。 因 为 SQL 语 


言 本 来 就 不 是 为 了 这 个 目的 而 出 现 的 ， 所 以 需要 费 些 工夫 。 本 节 ， 
的 行列 转换 和 艇 套 式 侧 栏 的 生成 方法 ， 深 入 理解 一 下 其 中 起 着 重要 作用 的 外 连接 。 


我 们 将 通过 学 习 格 式 转换 中 具有 代表 性 





很 多 人 对 SQL 有 一 个 误解 : 它 是 一 种 用 于 生成 报表 的 语言 。 确 实 ， 


SQL 在 生成 各 种 定 旬 




















SQL 具备 并 非 它 原本 用 途 的 功能 
是 主要 用 于 查询 数据 的 语言 而 已 。 
但 是 同时 ，SQL 比 很 多 人 想象 得 更 加 强大 。 特 别 是 近 些 年 ，SQL 引 

















入 了 许多 便于 生成 报表 的 功能 ， 








判 化 或 非 定制 化 报表 或 统计 表 的 系统 里 有 着 广泛 的 应 
用 。 这 本 身 并 没有 什么 问题 ， 但 “不 过 ”的 是 ， 数 据 库 工程 师 开 始 要 求 








格式 转换 。 说 起 来 ，SQL 终 完 也 只 








其 中 的 代表 就 是 窗口 函数 。 如 果 SQL 既 

















可 以 简化 系统 整体 的 代码 ， 同 时 也 可 以 优化 性 能 ， 使 用 起 来 是 很 有 价值 的 。 
本 节 , 我 们 将 学 习 一 下 使 用 外 
外 连接 是 数据 库 工程 师 比较 熟悉 的 一 种 运算 ， 但 这 次 我 们 将 试 着 从 不 同 的 
角度 来 体会 一 下 它 的 特性 。 就 内 容 分 布 来 说 ， 本 节 前 半 部 分 主要 讲解 如 何 
使 用 外 连接 进行 格式 转换 ， 后 半角 
如 果 大 家 对 外 连接 完全 不 了 解 , 可 以 先 从 本 节 后 半 部 分 的 “全 外 连接 ” 
和 “用 外 连接 进行 集合 运算 ”两 部 分 开始 阅读 。 



























































连接 (outer join) 进行 格式 转换 的 方法 。 





分 则 从 集合 运算 的 角度 来 了 解 外 连接 。 





在 1-1 节 中 ， 我 们 学 习 了 将 查询 结果 转换 成 交叉 表 的 方法 。 这 次 ， 我 


们 来 思考 一 下 如 何 用 外 连接 的 方法 实现 同样 的 功能 。 例 如 ， 这 里 有 一 张 用 



































于 管理 员工 学 习 过 的 培训 课程 的 表 ， 如 下 所 示 。 
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Courses 


name ( 员工 姓名 ) ”course ( 课程 ) 
























































































































































先 让 我 们 利用 上 面 这 张 表 生成 下 面 这 样 一 张 交 叉 表 〈“ 课 程 学 习 记 
录 一 览 表 ”)。O 〇 表示 已 学 习 过 ，NULL 表示 尚未 学 习 。 























国 课 程 学 习 记 录 一 览 表 ( 表 头 : 课程 ; 侧 栏 : 员工 姓名 ) 
SQL 入 门 UNIX 基础 Java 中 级 

































































实际 上 ， 原 来 的 表 与 刚刚 生成 的 表 在 信息 量 上 并 没有 区 别 。 关 于 “ 谁 
学 习 过 哪些 课程 ” 不 管 从 哪 张 表 都 能 看 出 来 ， 区 别 只 是 外 观 。 所 以 ， 这 
本 来 并 不 是 SQL 应 该 做 的 工作 。 但 是 ， 练 习 用 SQL 进行 这 样 的 工作 是 本 
节 的 主 则 ， 所 以 我 们 尝试 用 外 连接 的 思路 来 思考 ， 这 样 就 可 以 知道 ， 以 侧 
栏 (员工 姓名 ) 为 主 表 进行 外 连接 操作 就 可 以 生成 表 。 














































































































-- 水 平展 开 求 交叉 表 (1) : 使 用 外 连接 
SELECT C0 .name， 
CASE WHEN Cl.name IS NOT NULL THEN 'O' ELSE NULL END AS "SQL A 站", 
CASE WHEN C2.name IS NOT NULL THEN 'O' ELSE NULL END RS "UNIX 基础 ", 
CASE WHEN C3.name IS NOT NULL THEN 'O' ELSE NULL END AS "Java 中 级 " 















































FROM (SELECT DISTINCT name FROM Courses) C0  -- 这 里 的 co 是 侧 栏 
LEFT OUTER JOIN 
(SELECT name FROM Courses WHERE course = !SQDL 入门 ' ) C1 


ON CO.name = C1 .name 
LEFT OUTER JOIN 
(SELECT name FROM Courses WHERE course = 'UNIX 基础 ' ) C2 
DN CO.nane = C2.nanme 
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讲 过 ，SQL : 


LEFT OUTER JOIN 


(SELECT name FROM Courses WHERE course = 





OM Comname = CO. namer 


使 用 子 查询 ， 根 





























C0: 主 表 


这 样 4 个 集合 。 











C1: SQL 








居 源 表 Courses 生成 C0 ~~ C3 这 4 个 子 集 。 
指定 了 名 称 的 表 和 视图 都 相当 于 集合 。 因 此， 这 是 














C2: UNIX 





' Java 中 级 ' ) C3 


1-2 节 也 























C3: Java 


name 



























































C0 包含 了 全 部 员工 ， 起 到 了 “ 











这 样 








张 主 表 ， 请 直接 使 有 





有 上 它 )。C1 ~ C3 是 每 个 课程 的 学 习 者 的 集 





将 生成 下 














员工 主 表 ”的 作用 








《如 果 原 本 就 





























这 里 以 C0 为 主 表 ， 依 次 对 Cl ~ C3 进行 外 连接 操作 。 如 果 某 位 员工 学 习 


过 某 个 课程 ， 
过 casE 表达 式 将 课程 列 中 员工 的 妈 
这 次 ， 因 为 目标 表格 
样 的 ， 
和 表 侧 栏 的 交叉 表 时 ， 


加 
大 
观 


显得 很 腑 肿 。 而 且 ， 随 着 表 头 列 数 的 增加 ， 性 能 
我 们 再 考虑 一 下 有 没有 更 好 的 做 法 。 一 般 情况 下 ， 外 连接 都 可 以 


邮 








则 相应 


的 课程 列 会 出 现 他 的 姓 






























































也 是 


时 原理 














和 易于 理解 的 优点 ， 











只 需要 增加 夕 





名 ， 和 否则 为 NULL。 最 后 ， 








FE 名 转换 为 O 就 算 完成 了 。 
的 表 头 是 3 列 ， 所 以 进行 了 3 次 外 连接 。 列 数 增 














F 连 接 操作 就 可 以 了 。 想 生成 置换 了 表 







































































我 们 也 可 以 
但 是 因为 大 量 


























] 同 样 的 思路 。 这 种 做 法 
用 到 了 内 购 视 图 


会 恶化 。 











T 




















有 比较 直 
和 连接 操作 ， 代 码 会 
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子 查询 替代 ， 因 此 可 以 像 下 面 这 样 写 。 
- 水 平展 开 (2) : 使 用 标量 子 查询 
EEECTHCO name, 

(SELECTION 


FROM Courses C1 


WHERE 
AND 
(SELECT 


course = ' SQLA 入 门 ' 
Ci.name = CO.name) AS "SQL A 入 站", 
下 各 几 


FROM Courses C2 


WHERE 














course = ' UNIX 基础 ' 





标 
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AND C2.name = C0.name) RS "UNIX 基础 " 
(Smrpenuey 
FROM Courses C3 
WHERE course = ' Java 中 级 ' 
AND C3.name = C0.name) AS "Java 中 级 " 
FROM (SELECT DISTINCT name FROM Courses) C0; 





















































这 里 的 c0 是 表 侧 栏 


ZI @ 


这 里 的 要 点 在 于 使 用 标量 子 查 询 来 生成 3 列表 头 。 最 后 一 行 FROM 子 
句 的 集合 C0 和 前 面 的 “员工 主 表 ”是 一 样 的 。 标 量子 查询 的 条 件 也 和 外 












































连接 一 样 ， 即 满足 条 件 时 返回 品 ， 不 满足 条 件 时 返回 NULL。 这 利 





























做 法 的 


优点 在 于 ， 需 要 增加 或 者 减少 课程 时 ， 只 修改 SELECT 子 句 即 可 ， 代 码 修 





改 起 来 比较 简单 。 






























































句 和 FROM 子 句 两 个 地 方 )。 


(SELEeCr oO 
FROM Courses C4 
WHERE course = 'PHPA 入 门 ' 
AND C4.name = CO.name ) RS "PHP 人 入门" 








侈 如 想 加 入 第 4 列 “PHP 入 门 ” 时 ， 只 需要 在 SELECT 子 句 的 最 后 加 
上 下 面 这 条 语句 就 可 以 了 《如 果 采 用 前 面 的 写法 ， 则 必需 修改 SELECT 子 





这 种 做 法 不 仅 利 于 应 对 需求 变更 ， 对 于 需要 动态 生成 SQL 的 系统 也 








是 很 有 好 处 的 。 缺 点 是 性 能 不 太 好 ， 目 前 在 SELECT 子 句 中 使 用 
询 〈 或 者 关联 子 查 询 ) 的 话 ， 性 能 开销 还 是 相当 大 的 。 





















































生子 查 


接 下 来 介绍 第 三 种 方法 ， 即 肉 套 使 用 cASE 表达 式 。CASE 表达 式 可 以 

















写 在 SELECT 子 句 里 的 聚合 函数 内 部 ， 也 可 以 写 如 














FE 聚合 






































外 层 的 cASE 表达 式 里 将 1 转换 成 O 〇 。 





























-- 水 平展 开 (3) : 网 套 使 用 CASE 表达 式 
SELECT name, 





CASE WHEN SUM(CASE WHEN course = !SQL 入 门 ' THEN 1 ELSE NULL END) 


THEN 'O' ELSE NULL END AS "SQL A 站 ]", 





CASE WHEN SUM(CASE WHEN course = 'UNIX 基础 ' THEN 1 ELSE NULL END) 














THEN 'O' ELSE NULL END AS "UNIX 基础 "， 





CASE WHEN SUM(CASE WHEN course = 'Java 中 级 ' THEN 1 ELSE NULL END) 





THEN 'O' ELSE NULL END AS "Java 中 级 " 
FROM Courses 
GROUP BY name; 


函数 外 部 (请 参 
考 1-1 节 )。 这 里 ， 我 们 先 把 SUM 函数 的 结果 处 理 成 1 或 者 NOLL， 然 后 在 








下 
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如 果 不 使 用 聚合 ， 那 么 返回 结果 的 行 数 会 是 表 Courses 的 行 数 ， 所 以 
这 里 以 参加 培训 课程 的 员工 为 单位 进行 聚合 。 这 种 做 法 和 标量 子 查询 的 做 
法 一 样 简洁 ， 也 能 灵活 地 应 对 需求 变更 。 关 于 将 聚合 函数 的 返回 值 用 于 条 
件 判 断 的 写法 ， 如 果 大 家 不 习惯 ， 可 能 会 有 点 疑惑 。 但 是 ， 其 实在 
SELECT 子 句 里 ， 聚 合 函数 的 执行 结果 也 是 标量 值 ， 因 此 可 以 像 常 量 和 普 
通 列 一 样 使 用 。 如 果 明 白 这 点 ， 就 不 难 理解 了 。 






















































































TT 
























































































































































力 用 外 连接 进行 行列 转换 (2) ( 列 一 行 ) : 汇总 重复 项 于 一 列 


前 面 ， 我 们 练习 了 从 行 转换 为 列 ， 这 回 我 们 反 过 来 ， 练 习 一 下 从 列 转 
换 为 行 。 我 们 假设 存在 下 面 这 样 一 张 让 数据 库 工程 师 想 活 的 表 。 


























轩 Personnel : 员工 子女 信息 


employee( 员工 ) ”child_1( 孩 子 1) child_2( 孩子 2) child_3( 孩子 3) 






























































这 种 结构 的 表 大 家 应 该 都 见 过 吧 。 将 COBOL 等 语言 中 使 用 的 平面 文 
件 作为 输入 数据 , 简单 地 按照 原来 的 格式 进行 提取 , 就 可 以 得 到 这 样 的 表 。 
这 张 表 到 底 哪 里 让 人 想 哭 ， 我 们 暂时 不 提 ， 我 们 需要 做 的 是 将 这 张 表 转 换 
成 行 格式 的 数据 。 这 里 使 






















































































日 UNION ALL 来 实现 。 





Su 














-- 列 数据 转换 成 行 数据 : 使 用 UNION ALL 

SRRCHEEmDTEOYES chlo AS cn HROMPersonnel 
UNION ALL 

SRTRCREEmDLoYeS chlodm2 AS enald HROM ersonnel 
UNION ALL 

ShreCm emplovyee nn cn ld AS childnrOM Personnel, 














图 执行 结果 


employee 已 可 可 
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中 




















赤 至 囊 
工 蕨 春子 
工 茧 所 玫 
工 项 
铃木 豆 巴 
铃木 
铃木 
































中 中 中 开 

















寻 为 UNION ALL 不 会 排除 掉 重 复 的 行 ， 所 以 即使 吉田 没有 孩子 ， 结 
果 里 也 会 出 现 3 行 相关 数据 。 把 结果 存 入 表 时 ， 最 好 先 排除 掉 “child” 列 
为 NULL 的 行 。 
不 过 ， 根 据 具 体 需 求 ， 有 时 需要 把 没有 孩子 的 吉田 也 留 在 表 里 ， 像 下 
看 这 张 “ 员 工 子女 列表 ”这 样 。 



















































































国 员 工 子女 列表 


employee( 员工 ) 























赤 
赤 
赤 


















































在 这 道 例题 中 ， 我 们 不 能 单纯 地 将 “child” 列 为 NULL 的 行 排除 掉 。 
能 想到 的 解法 有 好 几 个 ， 不 过 先 来 生成 一 个 存储 子女 列表 的 视图 (孩子 主 

















CREATE VIEW Children (child) 

AS SELECT child 1 FROM Personnel 
UNION 
SELECT child 2 FROM Personnel 
UNION 
Shree end ROV ensonne, 
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如 果 原 本 就 有 这 样 一 张 员工 子女 表 备 用 ， 请 直接 使 用 它 。 
那么 ， 接 下 来 我 们 以 员工 列表 为 主 表 进 行 外 连接 操作 。 请 注意 连接 


条 件 。 






































-- 获取 员工 子女 列表 的 SQL 语句 ( 没有 孩子 的 员工 也 要 输出 
SELECT EMP.employee, CHILDREN.child 

FROM Personnel EMP 
LEFT OUTER JOIN Children 

ON CHILDREN.child IN (EMP.child 1, EMP.child 2, EMP.child 3); 















































T 

















这 里 对 子女 主 表 和 员工 表 执 行 了 外 连接 操作 ， 重 点 在 于 连接 条 件 是 通 
过 IN 谓词 指定 的 。 这 样 一 来 ， 当 表 Personnel 里 “孩子 1 ~~ 护 子 3” 列 的 
名 字 存 在 于 Children 视图 里 时 ， 返 回 该 名 字 ， 和 否则 返回 Nu。 工藤 家 和 
铃木 家 有 同名 的 孩子 “夏子 ” 但 这 并 不 影响 结果 的 正确 性 。 





































































































在 生成 统计 表 的 工作 中 ， 经 常会 有 制作 符 套 式 表 头 和 表 侧 栏 的 需求 。 
例如 这 道 例题 : 表 TblPop 是 一 张 按照 县 、 年 龄 层级 和 性 别 统计 的 人 口 分 
布 表 ， 要 求 根据 表 TblPop 生成 交叉 表 “ 包 含 符 套 式 表 侧 栏 的 统计 表 ”。 



































图 年 龄 层级 主 表 : TblAge 


age_class ( 年 龄 层级 ) ”age_range ( 年 龄 ) 


21 多 ~ 30 岁 


31 岁 ~ 40 岁 
41 家 ~ 50 岁 








图 性 别 主 表 : TblSex 

sex_cd ( 性 别 编号 ) sex ( 性 别 ) 
m 男 

f 女 








国 人 口 分 布 表 : TblPop 
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一 | 


age_class ( 年 龄 层级 ) sex_cd ( 性 别 编号 ) 








population ( 人 口 ) 










































































图 包含 说 套 式 表 侧 栏 的 统计 表 



































和 


I 





























4 





















































TblSex 作为 主 表 。 

















思路 是 以 这 两 张 表 作为 主 表 进行 





SQL 


语句 这 样 简单 地 进行 两 次 外 连接 ， 并 


个 问题 的 要 点 在 于 ， 虽 然 表 TblPop 上 
是 返回 结果 还 是 要 包含 这 个 年 龄 层级 ， 
栏 需要 用 到 外 连接 , 但 如 果 要 将 表 侧 栏 做 成 髋 套 式 的 , 还 需要 再 花 点 工夫 。 


目标 表 的 侧 栏 是 年 龄 层级 和 性 别 ， 所 以 我 们 











没有 一 条 年 龄 层级 为 2 的 数据 ， 














固定 输出 6 行 。 生 成 固定 的 表 侧 












































需要 使 用 表 TblAge 和 表 





连接 操作 。 但 是 如 果 像 下 面 的 

















不 能 得 到 了 











E 确 





的 结果 。 
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A 


SELECT 


























GROUP 


吏 用 外 连接 生成 扇 套 式 表 侧 栏 : 错误 的 SQL 语句 
MASTER1.age class AS age class, 
MASTER2.sex cd AS sex cd, 
DATA.pop tohoku AS Pop tohoku， 
DATA .pop_kanto AS pop_kanto 
EROMI(SEimen agene lass sexdcdy 


SUM (CASE WHEN pref name IN 





(' 青 森 '，' 秋田") 








THEN population ELSE NULL END) AS pop tohoku， 
i 
THEN population ELSE NULL END) AS pop_kanto 


SUM (CASE WHEN pref name IN 


FROM Tb1Pop 
RY"ageneclass Sex cq DATA 
RIGHT OUTER JOIN TblAge MASTER1 -- 外 连接 1 : 和 年 龄 层级 主 表 进行 外 连接 
































ON MASTER1.age class = DATA.age class 













































































RIGHT OUTER JOIN TblSex MASTER2 -- 外 连接 2 : 和 性 别 主 表 进行 外 连接 
ON MASTER2.sex cd = DATA.sex ' 


cds 





























在 这 种 情况 下 也 能 玫 


























结果 还 ` 是 不 正确 呢 ? 
有 年 龄 层级 为 2 的 数据 。 也 许 大 家 会 觉得 奇怪 ， 
不 就 是 保证 

















AT 























图 执行 结果 
agenclass sexicdqpopitohokug Pop kante 
In AN 1100 i800 
lL 时 1300 2500 
3 m 1000 
3 由 1800 2100 
观察 返回 结果 可 以 发 现 ， 结 果 里 没有 出 现年 龄 层级 为 2 的 行 。 这 不 是 
我 们 想 要 的 。 我 们 已 经 使 用 了 外 连接 ， 为 什么 
原因 是 表 TblPop 里 没 
我 们 已 经 使 用 了 外 连接 ， 而 外 连接 的 作用 
取 定 制 化 的 结果 吗 ? 
没 错 ， 








Rs 2 的 数据 的 。 














-- 停 在 第 1 个 外 连接 处 时 : 结果 里 包含 年 龄 层级 为 2 的 数据 
SELECT MASTER1.age_class AS age class， 
DATA.sex cd AS sex Cd, 
DATA.pop tohoku AS pop_ tohoku, 
DATA.pop_kanto AS pop_kanto 











EROMI (SAEen agenelass sexledy 


SUM(CASE WHEN pref name IN 


确实 是 这 样 的 。 实 际 上 ， 与 年 龄 层级 主 表 外 连接 之 后 ， 结 果 里 

















THEN population ELSE NULL END) AS pop tohoku, 


SUM(CASE WHEN pref name IN 





(' 青 森 '，' 秋田") 
Qt 





THEN population ELSE NULL END) AS pop_ kanto 
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FROM TblPop 
GROUP pyY age elass sexYed) DATA 
RIGHT OUTER JOIN ThblAge MASTER1 








ON MASTER1.age_class = DATA.age class; 


图 执行 结果 


age class sex cd pop tohoku pop kanto 











下 m 1100 1800 

1 所 1300 2500 

2 -- 存在 年 龄 
3 1000 

3 呈 1800 2100 
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层级 为 2 的 数据 


但 是 请 注意 ， 核 心 点 在 这 里 ， 虽然 年 龄 层级 2 确实 可 以 通过 外 连接 从 














表 TblAge 获取 ， 但 是 在 表 TblPop 里 ， 与 之 相应 的 “ 改 
NULL。 原 因 也 不 难 理解 。 表 TblPop 里 本 来 就 没有 年 龄 
























































E 别 编号 ” 列 却 是 
民 级 为 2 的 数据 ， 


自然 也 没有 相应 的 性 别 信息 m 或 ff 于 是 “性 别 编号 ” 列 只 能 是 NULL。 
因此 与 性 别 主 表 进 行 外 连接 时 ， 连 接 条 件 会 变 成 ON MASTER2.sex cd = 





























NULL， 结 果 是 unknown (这 个 真 值 的 意思 请 参考 1-3 节 )。 因 此 ， 最 终结 
使 改变 两 次 外 连接 的 先后 顺序 ， 






































果 里 永远 不 会 出 现年 龄 层级 为 2 的 数据 ， 
结果 也 还 是 一 样 的 。 


ym 

































































-- 使 用 外 连接 生成 髋 套 式 表 侧 栏 : 正确 的 SQL 语句 
SELECT MASTER.age class AS age class, 
MASTER. sex_cd AS sex cd, 
DATA.pop tohoku AS pop tohoku， 
DATA.pop kanto ”AS pop kanto 
FROM (SELECT age class, sex cd 

















那么 ， 究 竟 怎 样 才能 生成 正确 的 符 套 式 表 侧 栏 呢 ? 答案 如 下 。 
如 果 不 允 许 进行 两 次 外 连接 ， 那 么 调整 成 一 次 就 可 以 了 。 























FROM TblAge CROSS JOIN TblSex ) MASTER -- 使 用 交叉 连接 生成 两 张 





LEFT OUTER JOIN 
(SELECT age class, sex cd， 
SUM (CASE WHEN pref_ name IN (' 青 森 '，' 秋田 














表 的 笛 卡 儿 积 








') 


THEN population ELSE NULL END) AS pop_tohoku, 
SUM (CASE WHEN pref_name IN (' 东 京 '，' 和 干 叶 ') 
THEN population ELSE NULL END) AS pop_ kanto 





FROM TblPop 
GROUP BY age class, sex cd) DATA 
ON MASTER.age class = DATA.age class 
AND MASTER.Sex_ cd = DATA.sex cd; 
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图 执行 结果 


agenclass sexicdqpopltohnoku op kantee 


下 m 1100 1800 
下 时 1300 2500 
2 

如 中 

到 1000 

避 中 1800 2100 








这 样 ， 我 们 就 准确 无 误 地 得 到 了 6 行 数 据 。 无 论 







































































表 TblPop 里 的 数 


据 有 怎样 的 缺失 ， 结 果 的 表 侧 栏 总 能 固定 为 6 行 。 技 巧 是 对 表 TblAge 





和 表 TblSex 进行 交叉 连接 运算 ， 生 成 下 面 这 样 的 笛 卡 儿 积 。 行 数 是 




















3X2= 6。 


MASTER 
age_class ( 年 龄 层级 ) sex_cd ( 性 别 编 号 ) 

















1 
1 
2 
2 
3 
3 














然后 ， 只 需 对 这 张 MASTER 视图 进行 一 次 外 连接 操作 即 可 。 也 就 
是 说 ， 需 要 生成 典 套 式 表 侧 栏 时 ， 事 先 按 照 需要 的 格式 准备 好 主 表 就 
可 以 了 。 当 需要 3 层 或 3 层 以 上 的 嵌 套 式 表 侧 栏 时 ， 也 可 以 按照 这 种 方 








| 中 











法 进行 扩展 。 
这 里 补充 一 下 : 对 于 不 文 持 CRosS JOIN 语句 的 数 和 
































居 库 ， 可 以 像 FROM 








TblAge， Tblsex 这 样 不 指定 连接 条 件 ， 把 需要 连接 的 表 写 在 一 起 ， 其 效 





果 与 交叉 连接 一 样 。 
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我 们 在 1-4 节 的 专栏 “关系 除法 运算 ”里 提 到 过 “在 SQL 里 ， 交 又 
连接 相当 于 乘法 运算 ” 大 家 应 该 还 记得 吧 ? 这 种 说 法 并 不 是 一 种 比喻， 
而 是 事实 ， 观 察 一 下 运算 前 后 的 行 数 就 能 明白 这 点 。 

接 下 来 ， 我 们 将 以 下 面 的 商品 主 表 和 商品 销售 历史 管理 表 为 例 ， 深 入 
探讨 一 下 。 



















































































ltems SalesHistory 


sale_date item_no quantity 



























































先 使 用 这 两 张 表 生成 一 张 统计 表 ， 以 商品 为 单位 汇总 出 各 自 的 销量 。 
我 们 期 望 的 结果 是 像 下 面 这 样 的 。 






































item no total qty 


10 ll3 
20 32 
30 已 汉 
40 





因为 没有 销售 记录 完全 卖 不 动 ) 的 40 号 商品 DVD 也 需要 输出 在 
结果 里 ， 所 以 很 显然 ， 这 里 需要 使 用 外 连接 。 慌 怕 很 多 人 会 想到 下 面 这 种 
做 法 。 





















































-- 解答 (1) : 通过 在 连接 前 聚合 来 创建 一 对 一 的 关系 
RCI Eemnnonms totalotey 
FROM Items I LEFT OUTER JOIN 
(SELECT item no, SUM(quantity) AS total qty 
FROM SalesHistory 
GROUP BY item no) SH 
@N ltenine Semne 
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在 二 元 运算 中 ， 如 果 某 个 值 和 其 
他 任意 值 进行 运算 结果 都 不 会 改 
变 ， 那 么 我 们 称 这 个 值 为 单位 
元 。 例 如 与 整数 进行 乘法 运算 时 

















的 1， 以 及 加 法 运算 时 的 0。 从 





这 一 点 和 





看 ， 在 SQL 的 连接 运算 


中 ， 具 有 单位 元 性 质 的 是 “只 有 








一 行 数据 的 表 ”"。 因 为 数据 行 数 


























为 1 的 表 和 其 他 任意 表 进 行 交叉 
连接 ， 结 果 行 数 都 与 源 表 行 数 一 


样 。 
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这 种 做 法 的 确 是 了 

















的 临时 视图 ， 如 下 表 所 示 。 


图 以 商品 编号 为 主键 的 临时 视图 


item_no 








total_qty 





























E 确 的 ， 代 码 也 很 容易 理解 。 这 条 语句 首先 在 连接 前 
按 商品 编号 对 销售 记录 表 进 行 聚合 ， 进 而 生成 了 一 张 以 item_no 为 主键 

















SH) 


接 下 来 ， 通 过 “item_no” 列 对 商品 主 表 和 这 AN 





We 对 一 连接 。 这 个 查询 看 起 






































但 是 ， 如 果 从 性 能 角度 考虑 ， 





这 条 SQL 语句 还 是 有 些 问题 的 。 比 如 























临时 视图 
item no 变 成 了 主键 ， 




















SH 的 数据 需要 临时 存储 在 内 存 里 ， 还 有 就 是 虽然 通过 聚合 将 
但 是 SH 上 却 不 存在 主键 索引 ， 因 此 我 们 也 就 无 法 



































利用 索引 优化 查询 。 

要 改善 这 个 查询 ， 关 键 在 于 导入 “把 连接 看 作 乘 法 运算 ”这 种 视点 。 
商品 主 表 Items 和 视图 SH 确实 是 一 对 一 的 关系 ， 但 其 实 从 “item_ no” 
列 看 ， 表 Items 和 表 SalesHistory 是 一 对 多 的 关系 。 而 且 ， 当 连接 操作 的 
双方 是 一 对 多 关系 时 ， 结 果 的 行 数 并 不 会 增加 。 这 就 像 普 通 乘法 里 任意 数 
乘 以 1 后 ， 结 果 不 会 变化 一 样 9。 







































































外 








连接 会 增加 只 在 商品 主 表 








里 存在 的 40 号 商品 DVD 的 行 ， 所 以 严 


























格 地 讲 ， 行 数 并 非 没 有 增加 。 但 是 这 不 会 导致 表 SalesHistory 里 已 有 的 10 






































号 或 20 号 商品 的 行 异常 增加 ， 进 而 引起 结果 异常 。 按 照 这 种 思路 改良 后 


的 SQL ii 


-- 解答 (2) 


SELECT 
EROM 
ON 
GROUP 
































看 句 如 下 所 示 。 

















: 先进 行 一 对 多 的 连接 再 聚合 























temEnen uM (sn aanerey A toraaey 





Items LEFT OUTER JOIN 
I.item no = SH.item no 
BY em 


SalesHistoryast 


一 对 多 的 连接 








这 种 做 法 代码 更 简洁 ， 而 且 没 有 使 用 临时 视图 ， 所 以 性 能 也 会 有 所 
































如 果 想 练习 多 对 多 情况 下 的 连接 
和 聚合 等 高 级 内 容 ， 可 以 参考 
Joe Celko 的 著作 《SQL 解 惑 ( 第 


2 版 )》 








的 “ 谜 题 41 预算 "。 
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如 果 表 Items 里 的 “items_no” 列 内 存在 重复 行 ,就 属于 多 对 多 连接 了 ， 
因而 这 种 做 法 就 不 能 再 使 用 。 这 时 ， 需 要 先 把 某 张 表 聚 合 一 下 ， 使 两 张 表 
变 成 一 对 多 的 关系 @。 

一 对 一 或 一 对 多 关系 的 两 个 集合 ， 在 进行 连接 操作 后 行 数 不 会 (异常 
地 ) 增加 。 

这 个 技巧 在 需要 使 用 连接 和 聚合 来 解决 问题 时 非常 有 用 , 请 熟练 掌握 。 

读 到 这 里 应 该 有 人 注意 到 了 ， 其 实 前 面 那个 统计 人 口 分 布 的 问题 也 可 
以 用 类 似 的 方法 来 解决 。 这 种 解法 的 练习 放 到 了 本 节 最 后 的 练习 题 里 ， 读 
完 本 节 后 请 挑战 一 下 。 





























IE 














































































































本 节 的 前 半 部 分 主要 从 应 用 的 角度 介绍 了 外 连接 的 一 些 内 容 。 后 半 部 
分 将 换个 角度 ， 从 面向 集合 的 角度 介绍 一 下 外 连接 本 身 的 一 些 性 质 。 
标准 SQL 里 定义 了 外 连接 的 三 种 类 型 ， 如 下 所 示 。 









































。 左 外 连接 (LEFT OUTER JOIN ) 
。 右 外 连接 ( RIGHT OUTER JOIN ) 
s 全 外 连接 ( FULL OUTER JOIN ) 








其 中 ， 左 外 连接 和 右 外 连接 没有 功能 上 的 区 别 。 用 作 主 表 的 表 写 在 运 
算 符 左边 时 用 左 外 连接 ， 写 在 运算 符 右 边 时 用 右 外 连接 。 相 信 这 两 种 大 家 
已 经 很 熟悉 了 。 在 这 三 种 里 ， 全 外 连接 相对 来 说 使 用 较 少 。 从 面向 集合 的 
度 来 看 ， 它 有 很 多 有 趣 的 特点 ， 所 以 接 下 来 我 们 主要 了 解 一 下 全 外 连接 。 

关于 “全 外 连接 到 底 是 怎么 回 事 ” 相 比 用 语言 来 描述 ， 有 具体 的 实例 
更 容易 让 我 们 明白 ， 所 以 这 里 先 来 看 一 道 简 单 的 例题 。 


4-| 






























































































































































Class_A 
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注 @ 


例如 ，MySQL 还 不 支持 完全 外 连 





h 





接 ， 而 是 把 它 归 类 为 “未 来 的 
长 期 计划 内 的 新 功能 "。 
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在 ; 








这 两 张 班 级 学 生 表 里 ， 





















































和 铃木 同时 属于 两 张 表 ， 而 伊 集 院 和 西 
































园 寺 只 属于 其 中 一 张 表 。 全 外 连接 是 能 够 从 这 样 两 张 内 容 不 一 致 的 表 里 ， 
































出 地 获取 全 部 信息 的 方法 ， 所 以 也 可 以 理解 成 “把 两 张 表 都 当 作 主 




















没有 踪 ; 


























表 来 使 





]” 的 连接 。 








-- 全 外 连接 保留 全 部 信息 











SELECT 


FROM 
ON 


COALESCE (A.id, B.id) AS id， 

A.name AS A name, 

B.name AS B name 

ClassBAa A UB OUTERTIOTN Elassee ls 
A = 



































图 执行 结果 
id A name B name 
JT 田中 中 
2 铃木 铃木 
本 伊 集 院 
4 内 园 导 





















































可 以 看 到 ， 两 张 表 里 的 4 个 人 全 部 出 现在 结果 里 了 。coOALESCE 是 
SQL 的 标准 函数 ， 可 以 接受 多 个 参数 ， 功 能 是 返回 第 一 个 非 NULL 的 参数 。 


使 用 左 














( 右 ) 外 连接 时 ， 只 能 使 用 两 张 表 中 的 一 张 作 为 主 表 ， 所 以 不 能 同 








时 获取 到 伊 集 院 和 西 园 寺 两 个 人 。 而 全 外 连接 的 “全 ”就 是 “保留 全 部 信 


99 区 
息 ” 的 意思 。 





























如 果 所 用 的 数据 库 不 支持 全 外 连接 ， 可 以 分 别 进 行 左 外 连接 和 右 外 连 


接 ， 再 























巴 两 个 结果 通过 UNION 合并 起 来 ， 也 能 达到 同样 的 目的 9。 


-- 数据 库 不 支持 全 外 连接 时 的 替代 方案 


SELECT 
EROM 
ON 








A.id AS id, A.name, B.name 
ClassnA® A rEer ovr Jor classe ee 
全 cl 
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中 








UNION 
SELECT B.id AS id, A.name, B.name 
FROM Class A A RIGHT OUTER JOIN Class B B 
ON A.id = B.id; 





















































其 实 ， 我们 还 可 以 换个 gi 把 表 连 接 看 成 集合 运算 。 内 连接 相当 于 
求 集合 的 积 CINTERSECT, 也 称 交 集 ) 全 外 连接 相当 于 求 集合 的 和 (UNION， 
也 称 并 集 )。 下 面 是 两 者 的 维 恩 图 (Venn Diagram， 亦 称 文 氏 图 )。 




































































图 内 连接 相当 于 求 集合 的 积 ( INTERSECT ) 












































图 全 外 连接 相当 于 求 集合 的 和 ( UNION ) 
























































在 “不 遗漏 任何 信息 ”这 一 点 上 ,UNION 和 全 外 连接 非常 相似 MERGE 
语句 也 是 )。 接 下 来 ， 我 们 将 利用 外 连接 的 这 些 特性 ， 实 际 练习 一 下 集合 
运算 。 














用 外 连接 进行 集合 运算 


| 


SQL 是 以 集合 论 为 基础 的 ， 但 令 人 费解 的 是 ， 很 长 一 段 时 间 内 它 连 基 



































| 础 的 集合 运算 都 不 支持 8。UNION 是 SQL-86 标准 开始 加 入 的 ,还 算 比 较 早 。 
ne ee INTERSECT 和 EXCEPT 都 是 SQL-92 标准 才 加 入 的 。 关 系 除 法 运算 还 没有 
被 标准 化 ， 这 个 前 面 也 提 到 过 。 而 且 ， 各 个 DBMS 提供 商 在 功能 的 实现 
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程度 上 也 有 所 不 同 ， 参 差 不 齐 。 集 合 运 算 符 会 进行 排序 ， 所 以 可 能 会 带 来 
的 问题 。 因 此 ， 了 解 一 下 集合 运算 符 的 替代 方案 还 是 有 意义 的 。 
前 面 介 绍 了 交集 和 并 集 ， 下 面 来 介绍 一 下 差 集 的 求法 。 注 意 一 下 前 卫 
有 关 全 外 连接 的 例题 会 发 现 ， 伊 集 院 在 A 班 里 存在 而 在 B 班 里 不 存在 
“B_name” 列 的 值 是 NULL; 相反 , 西 园 寺 在 B 班 里 存在 而 在 A 班 里 不 存在 
“A_name” 列 的 值 是 NULL。 于 是 ， 我 们 可 以 通过 判断 连接 后 的 相关 字段 
是 否 为 NULL 来 求 得 差 集 。 























Er 
FT 
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CC 
















































































































































































SELECT A.id AS id, A.name AS A name 
FROM Class A A LEFT OUTER JOIN Class BB 
ON A lid Bid 
WHERE B.name IS NULL; 


图 执行 结果 
Tig A name 
3 伊 集 院 


图 用 外 连接 求 差 集 ( A-B ) 






































伊 集 院 


用 外 连接 求 差 集 : B - A 


田 
A RA Ee hh 


SELECT B.id AS id, B.name AS B name 
FROM Class A A RIGHT OUTER JOIN Class BB 
NPEAS Tg pd 
WHERE A.name IS NULL; 
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图 执行 结果 
id B_name 
4 西 园 洁 












































































































































当然 ， 用 外 连接 解决 这 个 问题 不 太 符合 外 连接 原本 的 设计 目的 。 但 是 
对 于 不 文 持 差 集运 算 的 数据 库 来 说 ， 这 也 可 以 作为 NoT IN 和 NoT 

















EXISTS 之 外 的 另 一 种 解法 ， 而 且 它 可 能 是 差 集运 算 中 效率 最 高 的 ， 这 也 














是 它 的 优点 。 








接 下 来 我 们 考虑 一 下 如 何 求 两 个 集合 的 异 或 集 。 
























































或 集 的 运算 符 , 如果 用 集合 运算 符 ,可 以 有 两 种 方法 。 一 种 是 (A UNION B) 


EXCEPT (A INTERSECT B), 另 一 种 是 (A EXCEPT B) UNION (B EXCEPT A)。 











两 种 方法 都 比较 麻烦 ， 性 能 开销 也 会 增 大 。 
现在 请 再 仔细 看 一 下 前 面 有 关 全 外 连接 的 执 
感 呢 ? 














SEEGCIEEOANESCRIRAEIOREERIOIRASETGS 
COALESCE (A.name , B.name ) AS name 
FROM Class A A FULL OUTER JOIN Class B B 
ONEASide = esd 
WHERE A.name IS NULL 
OR B.name IS NULL; 
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图 执行 结果 
3 name 
3 伊 集 院 
4 园 寺 









































国 用 全 外 连接 求 异 或 集 





伊 集 院 









































像 这 样 改变 一 下 WHERE 子 句 的 条 件 ， 就 可 以 进行 各 种 集合 运算 。 现 
在 我 们 已 经 求 了 集合 的 并 集 、 差 集 、 交 集 ， 那 么 想 求 集合 的 商 时 该 怎么 做 
呢 ? 其 实 商 也 可 以 通过 外 连接 来 求 。 也 就 是 说 ， 我 们 在 1-4 节 里 介绍 过 的 
关系 除法 运算 也 可 以 通过 外 连接 来 实现 。 如 果 使 用 1-4 节 里 的 表 Items 和 


表 ShopItems， 可 以 像 下 面 这 样 写 。 

























































































-- 用 外 连接 进行 关系 除法 运算 : 差 集 的 应 
SELECT DISTINCT shop 
FROM ShopItems SI1 
WHERE NOT EXISTS 
(SELECT I.item 
FROM Items I LEFT OUTER JOIN ShopItems SI2 
ON I.item = Tn 
AND SI1.shop = SI1I2.shop 
WHERE SI2.item IS NULL) 

















’ 





图 执行 结果 

















这 个 查询 的 意思 是 ， 用 表 Items 减 去 表 ShopItems 里 各 个 店铺 的 商品 ， 
如 果 结 果 是 空 集 , 则 说 明 该 店铺 库存 里 有 表 Items 里 的 全 部 商品 。 其 中 ”各 
个 店铺 ”这 一 条 件 是 通过 oN 子 句 里 的 SI1.shop = SI2.shop 这 个 关联 子 









































据 笔 者 确认 ，0Oracle 109 和 MySQL 












































查询 来 表述 的 9。 因 为 这 种 解法 用 到 了 集合 的 差 集 ， 所 以 也 可 以 直接 使 用 



































5.0 不 支持 在 连接 条 件 里 使 用 关 
联 子 查询 的 表 名 ， 所 以 这 个 SQL 不 
能 正常 执行 ， 但 是 在 PostgreSQL 
9.6 中 是 可 以 正常 执行 的 。 




















EXCEPT 运算 符 来 实现 。 请 大 家 把 这 当 作 练习 题 ， 试 着 按照 这 种 思路 改写 
一 下 (答案 将 在 1-7 节 中 揭晓 )。 











吴 术 # 小 结 
最 后 ， 我 们 稍微 了 解 一 点 与 外 连接 写法 相关 的 内 容 。SQL 有 很 多 的 方 
例如 外 连接 ,Oracle 数据 库 使 用 “(+)”, 而 SQL Server 数据 库 使 用 “*=” 
非常 依赖 于 数据 库 的 具体 实现 。 从 代码 的 可 移植 性 来 说 ， 我 们 应 该 避 
免 末 用 这 样 独特 的 写法 ， 并 遵循 ANSI 标准 。 因 此 ， 本 书 统一 采用 了 标准 
的 写法 。 
还 有 ，oUTER 也 是 可 以 省 略 的 ， 所 以 我 们 也 可 以 写成 LEFT JOIN 和 
FULL JOIN (标准 SQL 也 是 允许 的 )。 但 是 为 了 区 分 是 内 连接 和 外 连接 ， 
最 好 还 是 写 上 。 请 大 家 在 日 常 工 作 中 多 注意 这 一 点 (关于 “标准 写法 和 方 


言 ”的 问题 ，1-12 节 还 会 介绍 )。 


























吾 ， 
和 仁 
5 于» 

























































































下 面 是 本 节 要 点 。 

1. SQL 不 是 用 来 生成 报表 的 语言 ， 所 以 不 建议 用 它 来 进行 格式 转换 。 

2. 必要 时 考虑 用 外 连接 或 casE 表达 式 来 解决 问题 。 

3. 生成 嵌 套 式 表 侧 栏 时 ， 如 果 先 生成 主 表 的 笛 卡 儿 积 再 进行 连接 ， 很 
容易 就 可 以 完成 。 

4. 从 行 数 来 看 ， 表 连接 可 以 看 成 乘法 。 因 此 ， 当 表 之 间 是 一 对 多 的 关 
系 时 ， 连 接 后 行 数 不 会 增加 。 

5. 外 连接 的 思想 和 集合 运算 很 像 , 使 用 外 连接 可 以 实现 各 种 集合 运算 。 



























































































































































外 连接 是 一 种 很 常用 的 技术 。 即 使 是 人 们 很 熟悉 的 东西 ， 也 还 能 不 断 
地 找到 新 的 用 途 一 一 这 正 是 SQL 这 门 语言 有 趣 的 地 方 之 一 。 
如 果 大 家 想 了 解 更 多 关于 外 连接 的 内 容 ， 请 参考 下 面 的 资料 。 
































1.C.J.Date、Hugh Darwen, A Guide to SQL Standard ( 4th Edition )， 
( Addison-Wesley Professional，1996 年 ) 
关于 外 连接 的 标准 语法 ， 请 参考 该 书 第 11 章 。 





©@ 22 





第 1 章 神奇 的 SOL 


2. Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人 民 邮 电 出 版 社 ，2013 年 ) 
关于 使 用 外 连接 进行 集合 运算 ， 请 参考 第 34 章 “ 和 集合 操作 ”; 关于 使 用 
差 集 进行 关系 除法 运算 ， 请 参考 27.2.6 节 “ 用 集合 运算 符 进行 除法 ”; 
如 果 不 清 楚 带 有 重复 项 的 表格 哪里 让 数据 库 工 程 师 想 器 ， 请 参考 第 25 
章 “SQL 中 的 数组 ” 

3. Joe Celko,《SQL 解 惑 (第 2 版 )》( 人民 邮 电 出 版 社 ，2008 年 ) 

该 书 中 很 多 谜 题 都 用 到 了 外 连接 ， 这 里 列 出 几 个 有 代表 性 的 谜 题 ， 如 行 
列 转换 的 应 用 “ 谜 题 14 电话 ”和 “ 谜 题 55 赛马 ” 以 及 使 用 外 连接 求 
差 集 的 “ 谜 题 58 间隔 一 一 版 本 二 ” 关系 除法 运算 的 应 用 “ 谜 题 21 飞 
机 与 飞行 员 ” 等 等 。 
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大; 练习 题 


@ 练 习题 1-5-1 : 先 连 接 还 是 先 聚 合 


在 “在 交叉 表 里 制 作 典 套 式 表 侧 栏 ”部 分 里 ， 我 们 通过 聚合 将 DATA 

































































视图 和 MASTER 视图 转换 为 一 对 一 的 关系 之 后 进行 了 连接 操作 。 采 用 这 
种 做 法 时 ， 代 码 的 确 比较 好 理解 ， 但 是 这 就 需要 创建 两 个 临时 视图 ， 性 能 
并 不 是 很 好 。 请 想 办 法 改善 一 下 代码 ， 尽 量 减少 临时 视图 。 
























































@ 练 习题 1-5-2 : 请 留意 孩子 的 人 数 























在 “用 外 连接 进行 行列 转换 (1) ( 列 一 行 ) : 汇总 重复 项 于 一 列 ” 部 分 ， 
我 们 求 得 了 以 员工 为 单位 的 员工 子女 列表 。 有 了 这 个 列表 后 ， 对 员工 进行 
一 下 聚合 很 容易 就 可 以 知道 每 个 员工 抚养 了 几 个 孩子 。 

请 修改 一 下 正文 中 的 SQL， 求 每 个 员工 抚养 的 孩子 的 人 数 。 这 里 ， 输 
出 结果 如 下 所 示 。 


































































































employee Ghiaent 
赤 井 3 
工 蕨 2 
铃木 
吉田 0 




















1-5 ”外 连接 的 用 





23 @ 


中 























这 个 问题 应 该 插 容 易 的 ， 只 有 个 别 细节 需要 稍微 注 意 ， 所 以 请 仔细 比 
较 一 下 自己 的 结果 和 上 面 的 结果 有 没有 什么 不 同 。 












































@ 练 习题 1-5-3 : 全 外 连接 和 MERGE 运算 符 
在 “全 外 连接 ”部 分 ， 我 们 提 到 过 ， 在 不 遗漏 任何 信息 这 一 点 上 ， 









































MERGE 和 全 外 连接 非常 相似 。 那 么 接 下 来 ， 我 们 练习 一 下 MERGE 的 用 法 。 
MERGE 运算 符 是 在 SQL:2003 标准 中 引入 的 新 特性 。 因 为 它 可 以 将 两 
张 表 的 信息 汇总 到 一 张 表 上 ， 所 以 在 需要 将 分 散在 多 个 数据 源 的 数据 汇总 
到 一 起 的 场景 中 能 发 挥 很 强大 的 威力 。 
这 里 继续 使 用 正文 中 用 到 的 Class A 和 Class B 这 两 张 表 ( 表 Class_ 
B 中 的 数据 有 些 变化 )。 





















































































































































我 们 假设 要 将 表 Class_B 里 的 数据 汇总 到 表 Class_A 里 ， 目 标 结果 像 
下 表 这 样 。 

















图 汇总 后 的 Class_A 

































































处 理 逻 辑 是 在 表 Class_A 中 查询 表 Class_B 里 的 “id (编号 )” 列 ， 如 
果 存 在 则 更 新 名 字 , 如 果 不 存 在 则 插入 。 因 此 ,两 张 表 中 同名 的 1 号 “田中 ”， 
以 及 表 Class_B 中 不 存在 的 3 号 “ 伊 集 院 ” 没 有 变化 ， 两 张 表 中 编号 相同 
名 字 却 不 同 的 2 号 “铃木 ”被 更 新 成 “内 海 ” 表 Class_A 中 不 存在 的 新 
“ 西 园 寺 ” 被 添加 进 表 中 。 
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| | 用 关联 子 查询 比较 行 与 行 


信用 SQL 进行 行 与 行 之 间 的 比较 

使 用 SQL 对 同一 行 数据 进行 列 间 的 比较 很 简单 ， 但 是 对 不 同行 数据 进行 比较 却 没 那么 简单 。 然 而 ， 
这 并 不 是 说 我 们 不 能 用 SQL 进行 行 与 行 之 间 的 比较 。 本 节 ， 我 们 将 通过 应 用 事例 学 习 一 下 如 何 使 用 关联 
子 查询 进行 行 与 行 之 间 的 比较 。 





使 用 SQL 对 同一 行 数据 进行 列 间 的 比较 很 简单 ， 只 需要 在 waaRa 子 
句 里 写 上 比较 条 件 就 可 以 了 ， 例 如 col_ 1 - col 2。 但是， 对 不 同行 数据 
进行 列 间 的 比较 却 没 那么 简单 。 然 而 ， 这 并 不 是 说 我 们 不 能 用 SQL 进行 
行 与 行 之 间 的 比较 。 虽 然 与 面向 过 程 语言 的 思路 很 不 一 样 ， 但 是 使 用 SQL 
也 是 可 以 实现 这 样 的 功能 名 
使 用 SQL 进行 行 间 比较 时 ， 发 挥 主要 作用 的 技术 是 关联 子 查询 ， 特 
ED 别 是 与 自 连接 相 结合 的 “ 自 关联 子 查询 ”9。 本 节 ， 我 们 将 通过 具体 事例 
入 来 学 习 一 下 如 何 应 用 自 关联 子 查询 进行 行 间 比 较 。 


择 。 但 是 ， 因 为 窗口 函数 的 实现 
情况 也 因 具 体 的 数据 库 系统 而 不 


a 增长、 减少 维持 现状 
需要 用 到 行 问 数据 比较 的 具有 代表 性 的 业务 场景 是 ， 使 用 基于 时 间 序 
列 的 表 进 行 时 间 序列 分 析 。 假 设 有 下 面 这 样 一 张 记 录 了 某 个 公司 每 年 的 草 


业 额 的 表 Sales。 









































































































































































































































关联 子 查询 比较 行 与 行 


Sales 


sale ( 年 营业 额 : 亿 日 元 ) 


year ( 年 份 ) 
































F 营业 额 的 趋势 


60 


HH 








50 





45 


1990 1991 1992 1993 1994 1995 1996 1997 


























请 根据 这 张 表 里 的 数据 ， 使 用 SQL 输 # 
了 还 是 减少 了 ， 抑 或 是 没有 变化 。 可 以 先 试 试 求 日 











上 “不 变 ” 




















95@ 


与 上 一 年 相 比 营 业 额 是 增加 
这 种 情况 。 从 




















































































































表 里 可 以 看 到 ， 我 们 需要 求 出 的 是 1993 年 和 1995 年 。 如 果 用 面向 过 程 语 
言 来 解决 ， 应 该 是 下 面 这 样 的 思路 。 

1. 按 年 份 递增 的 顺序 排序 。 

2. 循环 地 将 每 一 行 与 前 一 行 的 “sale” 列 进行 比较 。 

使 用 SQL 时 的 解 题 思路 跟 这 个 思路 不 太一 样 ， 需 要 用 面向 集合 的 方 
式 进行 思考 。 这 里 ， 我 们 在 表 Sales 的 基础 上 ， 再 加 一 个 存储 了 上 一 年 数 






































据 的 集合 〈S2 )。 











©@ 920 


第 1 章 神奇 的 SQL 








-- 求 与 上 一 年 营业 额 一 样 的 年 份 (1) : 使 用 关联 子 查询 
SELECT year,sale 
FROM Sales S81 
WHERE sale = (SELECT sale 
FROM Sales S52 


WHERES SEE = Sare 
ORDER BY year; 























图 执行 结果 


year Sale 


TI99S 5 
L995 50 


sale ( 年 营业 额 ) sale ( 年 营业 额 ) 




































































子 查询 里 的 S2.year = Sl.year - 1 这 个 条 件 起 到 了 将 要 比较 的 数 
据 偏 移 一 行 的 作用 。 关 联 子 查询 和 自 连 接 在 很 多 时 候 都 是 等 价 的 ， 所 以 我 
们 也 可 以 像 下 面 这 样 使 用 自 连接 来 实现 。 
















































































-- 求 与 上 一 年 营业 额 一 样 的 年 份 (2) : 使 用 自 连接 
SEEECTISI :year Sl sale 
FROM Sales S1, 
Sales S52 
WHERE S2.sale = Sl.sale 
AND S2.year = Sl.year - 1 
ORDER BY year; 






































关于 这 两 种 做 法 哪 种 性 能 更 好 ， 我 们 不 能 一 概 而 论 ， 因 为 这 会 因 环境 
而 不 同 ， 所 以 请 实际 比较 一 下 看 看 。 
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接 下 来 请 将 这 个 例子 扩展 一 下 ， 求 出 每 一 年 相 比 上 一 年 营业 额 是 增加 
了 还 是 减少 了 ， 抑 或 是 没有 变化 。 





加 | 用 列表 展示 与 上 一 年 的 比较 结果 




















-- 求 出 是 增长 了 还 是 减少 了 ， 抑 或 是 维持 现状 (1) : 使 用 关联 子 查询 
SONG ya loale, 


CASE WHEN sa 


(SELECT 
FROM Sales S82 
WHRRP SP VS aT Ie Ne -- 持平 


WHEN sa 


(SELECT 
FROM Sales S52 
WHERE S2.year = Sl.year - 1) THEN '1' -- 增 长 


WHEN sa 


(SELECT 
FROM Sales S52 
WHERE S2.year = Sl.year - 1) THEN ! 小 !-- 减 少 

















一 
Sale 








e > 
sale 


[= 


sale 


ELSE '—' END AS var 


FROM Sales S1 
ORDER BY year; 


Wea sane va 
1990 50 一 
1991 co 
1992 Do 
1993 5 
1994 so 
1995 S00 
1996 49 | 
1997 55 1 
在 音乐 CD 和 电 景 











乡 的 每 周 排行 榜 中 ， 我 们 经 常会 见 到 这 样 的 趋势 表 。 








这 条 SQL 语句 将 关联 子 查 询 的 逻辑 移 到 了 SELECT 子 句 里 ， 用 来 比较 这 一 


年 和 上 一 年 的 营业 额 。 











因为 这 里 没有 1990 年 之 前 的 数据 ， 所 以 执行 结果 

















里 显示 的 是 “一 ”。 

















同样 , 这 里 也 可 以 改写 一 下 SQL 语句 , 使 用 自 连接 来 实现 , 如 下 所 示 。 
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ff 








-- 求 出 是 增长 了 还 是 减少 了 , 抑或 是 维持 现状 (2) : 使 用 自 连接 查询 ( 最 早 的 年 份 不 会 出 现在 结果 
SECGIESLERWXeSESRESLERSSLEET 
CASE WHEN S1.sale = S2.sale THEN ' 一 " 
WHEN S1.sale > S2.sale THEN 'f' 
WHEN S1.sale < S2.sale THEN ' |， 
ELSE '—' END AS var 
FROM Sales S1, Sales S52 
WHERE S2.year = Sl.year = 1 
ORDER BY year; 



























































采用 这 种 实现 方法 时 ， 由 于 这 里 没有 1990 年 之 前 的 数据 ， 所 以 1990 
会 被 排除 掉 ， 执 行 结果 会 少 一 行 。 虽 然 没有 这 一 行 也 不 至 于 产生 大 的 问 
题 ， 但 是 有 时 候 我 们 也 会 遇 到 “最 早 的 年 份 也 要 包含 在 结果 里 ”这 样 的 需 
求 。 关 于 这 个 问题 该 怎么 解决 ， 我 们 放 到 下 一 个 部 分 中 探讨 。 

继续 看 当前 例题 的 执行 结果 可 以 发 现 ， 时 间 轴 是 竖 着 展示 的 。 那 么 我 
们 能 不 能 像 下 面 这 样 把 时 间 轴 改 成 横着 展示 呢 ? 






































































































































E71o90 |1991 |1992 |1993 |1994 |1995 |1996 |1997 
趋势 二 | 1 一 J = ! 1 


























当然 是 可 以 的 。1-5 节 “ 用 外 连接 进行 行列 转换 (D)《〈 行 一 列 ) : 制 
交叉 表 ” 部 分 已 经 介绍 过 实现 方法 了 。 当 时 也 说 过 ， 使 用 SQL 进行 格式 
转换 并 不 是 根本 的 办 法 。 针 对 查询 结果 的 格式 化 ， 还 是 应 该 尽量 交 给 宿主 
语言 或 者 应 用 程序 来 完成 。 



























































在 上 一 部 分 的 例题 里 ， 各 年 份 的 数据 都 没有 间断 。 然 而 现实 中 肯定 有 些 
冒失 的 公司 ， 比 如 这 家 公司 就 丢失 了 过 去 个 别 年 份 的 数据 , 如 表 Sales2 所 示 。 


















































Sales2 : 有 年 份 缺失 
year ( 年 份 ) sale ( 年 营业 额 ) 


1991 年 缺失 











1995 年 、1996 年 缺失 
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这 样 一 来 ,“ 年 份 - 1” 这 个 条 件 就 不 能 用 了 。 我 们 需要 把 它 扩展 成 
更 普遍 的 情况 ， 用 某 一 年 的 数据 和 它 过 去 最 临近 的 年 份 进行 比较 。 具 体 点 
说 ， 我 们 需要 写 出 一 条 能 让 1992 年 和 1990 年 、1997 年 和 1994 年 进行 比 
较 的 SQL 语句 。 

对 某 一 年 来 说 ,“ 过 去 最 临近 的 年 份 ”需要 满足 下 面 两 个 条 从 
























































I 





o 


1. 与 该 年 份 相 比 是 过 去 的 年 份 。 
2. 在 满足 条 件 1 的 年 份 中 ， 年 份 最 早 的 一 个 。 


























如 果 按 这 两 个 条 件 改写 SQL 语句 ， 那 么 应 该 像 下 面 这 样 写 。 

















-- 查询 与 过 去 最 临近 的 年 份 营业 额 相同 的 年 份 
SELECT year, sale 
FROMISales29S1 
WHERE sale = 
(SELECT sale 
FROM Sales2 S2 
WHERE S2.year = 















































(SELECT MAX (year)  -- 条 件 2 : 在 满足 条 件 1 的 年 份 中 ， 年 份 最 早 的 一 个 
RROMESaies2 Sa 
WHERE S1.year > S3.year)) -- 条 件 1 : 与 该 年 份 相 比 是 过 去 的 年 份 








DRDEREEY Vea 


图 执行 结 




















如 果 使 用 自 连接 ， 可 以 减少 一 层 子 查 询 的 幅 套 。 














图 查询 与 过 去 最 临近 的 年 份 营业 额 相 同 的 年 份 : 同时 使 用 自 连接 








SELECT S1.year AS year, 
Sa vor ea Yea 
EROMESaleSs2 Sl Sales252 
WHERE S1.sale = S2.sale 
AND S2.year = (SELECT MAX (year) 
FROM Sales2 S3 
WHERE S1.year > S3.yeaz) 
ORDERY BY year, 
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通过 这 个 方法 ， 我 们 可 以 查询 每 一 年 与 过 去 最 临近 的 年 份 之 间 的 营业 
额 之 差 。 
-- 求 每 一 年 与 过 去 最 临近 的 年 份 之 间 的 营业 额 之 差 (1) : 结果 里 不 包含 最 早 的 年 份 
SELECTS2,year AS preyeary 


Sl.year AS now year, 
Ss2"sale AS predsale, 
sl.sale AS now dsale, 
; le A neE 


FROM Sales2 S1, Sales2 S52 


WHERE 


S2.year = (SELECT MAX (year) 
FROM Sales2 S3 
WHERE S1.year > S83.year) 


ORDER BY now year; 


国 执 和 


Z 一 /- 


FeyesrnmowEVveaniosESsaeainowESaT ERAREE 


加 加 罗 50 50 0 = SUE= SU = 二 0 
99 忆 50 与 名 2 0 = 
1994 上 史 SE 3 S23 
P99m SS SS 0 55 55 EU 











从 执行 结果 可 以 发 现 ， 这 条 SQL 语句 无 法 获取 到 最 早年 份 1990 年 的 

















数据 。 这 是 因为 ， 表 里 没有 比 1990 年 更 早 的 年 份 ， 所 以 在 进行 内 连接 的 





时 候 1990 年 的 数据 就 被 排除 掉 了 。 如 果 想 让 结果 
可 以 使 用 “ 自 外 连接 ”来 实现 。 
































里 出 现 1990 年 的 数据 ， 
























































年 与 过 去 最 临近 的 年 份 之 间 的 营业 额 之 差 (2) : 使 用 自 外 连接 。 结 果 里 包含 最 早 的 年 份 






































ORDER 








S22rvear DEVEST Ss year A NowaM ea 


Ss2msaleraAse rensale Sale A nowaseles 
SSale 2sSale AS En 
Sales2 S1 LEFT OUTER JOIN Sales2 S82 
S2.year = (SELECT MAX (year) 
FROM Sales2 S3 
WHERE S1.year > 83.year) 
BYEnowEVXEam 7 


图 执行 结果 
pre year now year 
E990 
90 J 
1992 ese 
1S9S 1994 
1994 L997 


将 表 Sales2 作为 主 表 进 行 外 连接 后 ,所 有 年 份 就 都 





1-6 

pre sale now sale 
50 

50 50 

50 52 

52 55 

55 55 

















在 1-2 节 








外 连接 以 及 非 等 值 连接 ， 是 非常 高 


这 条 SQL 语句 和 


因此 即使 年 份 有 缺失 也 没有 关系 。 











可 以 应 用 于 字符 类 型 


里 计算 位 次 时 ,我 们 也 曾 使 用 过 这 个 
技巧 。 


超 的 
与 过 去 与 其 (这 





























关联 子 查 询 比 较 行 与 行 








101 @ 





--1990 年 也 会 





当 


Es 























现在 表 侧 栏 里 了 。 























技巧 。 本 例 同 时 使 用 


了 自 连 接 、 











最 近 的 年 份 进 

















4、 日 期 类 型 等 具 








因为 使 用 极 值 函 数 时 会 发 4 
个 方法 在 性 能 方面 稍微 还 色 ( 








使 ) 





有 索引 的 )。 

















3 














全 已 














请 根据 








( 体 需 求 并 





权衡 通用 性 和 性 能 











用 


力 】 移动 累计 值 和 移动 平均 值 


我 们 把 截止 到 某 个 时 间 点 且 按 时 间 记 录 的 数值 


里 指 某 一 年 ) 
而 且 ， 不 5 只 是 数值 7 
有 顺序 的 列 ， 




















行 比较 ， 


这 条 SQL 语句 还 




















通 | 








性 比较 高 。 但 
FE 排序， 所 以 与 上 一 部 分 中 的 实现 方法 相 比 ， 这 











是 ， 








[0 果 极 值 函 数 的 参数 是 主键 ， 有 时 











累加 而 得 


























为 累计 值 。 例 如 下 面 











们 思考 一 下 如 何 求 出 


Accounts 


prc_date ( 处 理 日 期 ) 





有 一 张 银 行 账 
累计 值 。 





prc_amt ( 处 理 金额 ) 


























也 是 可 以 


出 来 的 数值 称 
户 存 取款 历史 记录 表 Accounts， 现 在 我 
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处 理 金额 为 正 数 代表 存 钱 ， 为 负数 代表 取 钱 。 然 后 ， 求 截止 到 某 个 处 
理 日 期 的 处 理 金额 的 累计 值 ,， 实际 上 就 是 求 截止 到 那个 时 间 点 的 账户 余额 。 
我 们 首先 可 以 使 用 窗口 函数 来 实现 。 










































































-- 求 累 计 值 : 使 用 窗口 函数 
SEreemprendater ream 
SUM(prc amt) OVER (ORDER BY prc date) AS onhangd amt 
FROM Accounts; 
































引入 窗口 函数 的 目的 原本 就 是 解决 这 类 问题 ， 因 此 这 里 的 代码 非常 简 
洁 ， 而 且 从 性 能 方面 来 看 ， 表 的 扫描 和 数据 排序 也 都 只 进行 了 一 次 。 但 是 
很 遗憾 ， 这 种 实现 方法 还 是 依赖 于 具体 的 数据 库 的 。 而 如 果 使 用 标准 
SQL-92， 我 们 可 以 像 下 面 这 样 写 SQL 语句 。 























































































































-- 求 累 计 值 : 使 用 冯 ' 诺 依 曼 型 递归 集合 
SHELECGHPreldate TCFCESmi 
(SELECT SUM (prc amt) 
FROM Accounts A2 
WHERE Al.prc aate >= A2.prc date ) AS onhand amt 
FROM Accounts Al 
ORDERE BY prnendates 




















图 执行 结果 
Puengate prc amt onhand amt 
2006= 10=26 12000 T2000 = 12000 
2006= 10=28 2500 25000 20000 2500 
2006 OSL 5000 S00 O00 2 O00 S00 
2006=1E-03 34000 33500 -- 12000 + 2500 + (-15000) + 34000 
2006-11-04 -5000 人 285000 
O05 0 7200 和， 二 
006 TE 11000 da6n000m 




















这 里 不 加 说 明 就 直接 给 出 了 管 案 ， 多 少 会 让 人 觉得 有 点 突然 。 但 是 ， 
对 于 这 个 查询 ， 大 家 不 觉得 似曾相识 吗 ? 其 实 ， 这 是 与 1-2 节 里 计算 位 次 
的 方法 属于 同 种 类 型 的 查询 语句 。 这 里 只 是 将 COUNT 蔡 换 成 了 SUM 而 已 。 
因此 ， 冯 : 诺 依 曼 型 递归 集合 也 是 可 以 用 来 求 累 计 值 的 ， 大 家 注意 到 了 吗 ? 
到 目前 为 止 ， 本 节 主 要 是 复习 以 前 学 过 的 旧 知 识 ， 从 现在 开始 ， 我 们 
就 要 进入 正题 了 。 刚 才 的 例题 并 没有 指定 要 求 的 累计 值 的 时 间 区 间 ， 因 此 
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我 们 计算 的 是 从 最 早 的 数据 开始 的 累计 值 。 接 下来， 我 们 考虑 一 下 如 何以 
3 次 处 理 为 单位 求 累 计 值 ， 即 移动 累计 值 。 所 谓 移动 ， 指 的 是 将 累计 的 数 
据 行 数 固定 (本 例 中 为 3 行 )， 一 行 一 行 地 偏 移 ， 如 下 表 所 示 。 












































图 目标 区 间 一 行 一 行 地 偏 移 


prc_date ( 处 理 日 期 ) prc_amt ( 处 理 金额 ) 
2006-10-26 12 000 


2006-10-28 2 500 区 间 1 : -500 

， 区 间 2 : 21 500 

区 间 3 : 14 000 

区 间 4 : 36 200 

上 区 间 5 : 13 200 















































这 里 的 思路 是 ， 往 刚才 的 求 累计 值 的 SQL 语句 里 加 上 这 样 一 个 条 件 : 
A2 的 处 理 日 期 与 Al 的 处 理 日 期 之 间 的 记录 在 3 行 以 内 。 如 果 使 用 窗口 函 
数 ， 可 以 像 下 面 这 样 通过 指定 Rows 关键 字 来 指定 数据 行 数 。 





























































































































-- 求 移动 累计 值 (1) : 使 函数 

SELECHPreldate ADEC 硬 am 
SUM(prc amt) OVER (ORDER BY prc date 

ROWS 2 PRECEDING) AS onhand amt 























FROM Accounts; 




































































如 果 使 用 关联 子 查 询 ， 我 们 还 可 以 像 下 面 这 样 用 标量 子 查 询 来 计算 




















-- 求 移动 累计 值 (2) : 不 满 3 行 的 时 间 区 间 也 输出 
SELECT prendater Al pre ame, 
(SELECT SUM(prc amt) 
FROM Accounts A2 
WHERE Al.prc date >= A2.prc date 
AND (SELECT COUNT (*) 
FROM Accounts A3 
WHERE A3.prc date 
BETWEEN A2.prc date AND Al.prc date ) <= 3) 
AS mvg_sum 
FROM Accounts Al 
ORDEREBYnedate, 
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图 : 
REeEdate prc amt mvg_sum 
人 206 0 26 12000 12000 -12000 
06 M028 2500 14500 200007 2500 
2 410 = 了 HL 5000 =300 2000 25000 (S000) 
2 0 34000 21500 --2500 + (-15000) + 34000 
2006-11-04 -5000 14000 ”-- 下 同 
2006-11-06 7200 36200 三 


O06 Td I 11000 B3200 = 


这 条 语句 的 要 点 是 ，A3.prc_date 在 以 A2.prc_date 为 起 点 ， 以 
Al.prc_date 为 终点 的 区 间 内 移动 ， 请 思考 一 下 。 通 过 修改 “<= 3” 里 的 





数字 , 我 们 可 以 以 任意 行 数 为 单位 来 进行 偏 移 ， 比 如 以 4 行 或 5 行为 

















I 
Er 














在 处 理 前 2 行 时 ， 即 使 数据 不 满 3 行 ， 这 条 SQL 语句 还 是 计算 出 了 相应 





























“<= 3” 这 个 条 件 改 为 “=3” 是 不 行 的 ， 你 知道 为 什么 吗 )。 

















-- 移动 宗 计 值 (3) : 不 满 3 行 的 区 间 按 无 效 处 理 
SEC bresdate al oreamen 
(SELECT SUM(prc amt) 
FROM Accounts A2 
WHERE Al.prc date >= A2.prc date 
AND (SELECT COUNT (*) 
FROM Accounts A3 
WHERE A3.prc date 








BETWEEN A2.prc date AND Al.prc date ) <= 3 
I(*) =3) AS mvg_sum -- 不 满 3 行 数据 的 不 显示 

















FROM Accounts Al 
QRDEREEY rcacate, 
园 执行 结 呈 


Puengate Prc amt mvg_sum 
































2006-10-26 12000 -- 不 满 3 行 数据 ， 所 以 不 显示 
2006-10-28 2500 -- 不 满 3 行 数据 ， 所 以 不 显示 
0 = T10000 -500 ”-- 凑 够 了 3 行 ， 所 以 输出 
20 1 0 34000 21500 

00E = 04 -5000 14000 

OOGE 0 7200 36200 


O06 TE 11000 L200 














的 累计 值 。 其 实 ， 我 们 还 可 以 将 这 样 的 情况 作为 无 效 来 处 至 
四 这 种 做 法 就 是 使 用 HAVING 子 句 找 出 元 素数 刚好 为 3 行 的 集合 〈 仅 将 


EE。 例 如 ， 下 
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如 果 觉 得 这 条 SQL 语句 的 处 理 过 程 难以 理解 ， 我 们 可 以 输出 去 掉 聚 
合 后 的 明细 数据 来 看 一 下 ， 这 样 应 该 会 好 理解 。 

































































-- 去 掉 聚 合并 输出 
SELECT Al.pre date AS Al date, 
A2-pEeMdate AS A2Ydates 
A2 .pre amt AS amt 
FROM Accounts Al, Accounts A2 
WHERE Al.prc date >= A2.prc date 
AND (SELECT COUNT (*) 
FROM Accounts A3 
WHERE A3.prc date BETWEEN A2.prc date AND Al.prc date ) <= 3 
ORDER BY Al date, A2 date; 





Al date A2 date amt 


DNGE LO 6 2006 L026 12000 


DQG TO 8 2006 L026 12000 
a006 L103 2006 0=28 2500 


200S 0 202006 0 26 12000 
QOS 0 0 006 0 28 2500 0 
a0065 L053 20065 0 B00 Is000 


A006 0000 0 28 2500 
a005 E020 20065 0 3 “1s000 S225 00 
DOGE T0300 2006 EUS 34000 


ADOQ6= EE 0400 2006 “403 45000 
a0Q6 TE 040 2006 T1035 34000 S34000 
aDOQ6 EL 040 2006 EU4 si000 


0 E050 2200 = 0s 34000 
a006 ENG 2006 E04 ES5000 …3S4 :36200 
OO I 000 0 7200 


0 00 5000 
O00 EE 0G 和 和 7200 SS 200 
a006 TE T2006 TL 1 LEO000 





























像 上 面 这 样 展 开 后 ， 我 们 发 现 ， 这 里 的 思路 与 冯 … 诺 依 曼 型 递归 集合 
一 样 ， 生 成 了 几 个 集合 。 只 不 过 ， 这 些 集合 间 的 关系 不 是 嵌 套 ， 而 是 存在 
交集 ， 又 有 一 点 “ 偏 移 *。 而 且 ， 集 合 S3 刚好 与 所 有 集合 都 有 交集 。 




































































人 106 





第 1 章 神奇 的 SOL 





国 存在 部 分 交集 的 集合 簇 





通过 将 这 个 集合 艇 与 冯 … 诺 依 曼 型 同心 圆 式 骨 套 集合 进行 对 比 ， 我 们 





可 以 明白 ， 集 合 的 生成 方式 是 多 种 多 样 的 ， 也 是 非常 有 趣 的 。 如 果 自 连接 
的 关键 字 是 “ 杉 套 (递归 )”， 那么 这 里 的 关键 字 可 以 暂 定 为 “ 偏 移 ”。 

还 有 ， 到 目前 为 止 ， 我 们 主要 思考 了 累计 值 的 求法 ， 所 以 使 | 
果 求 移动 平均 值 (moving average)， 那 么 将 SUM 函数 改写 成 



































































































































j 的 是 






































酒店 或 者 旅馆 的 预约 











end_date ( 离 店 日 期 ) 


2006-- 


10-27 





2006-- 


10-31 





2006-- 


11-01 








2006-- 


11-04 























2006-- 


11-05 











2006 

















-11-06 


























这 张 表 旦 
的 预约 情况 。 














没有 房间 编号 ， 请 把 表 中 数据 当成 是 茶 一 房间 在 茶 段 期 间 内 



































那么 ， 正 常情 况 下 ， 每 天 只 能 有 一 组 客人 在 该 房间 住宿 。 从 


























表 中 数据 可 以 看 出 ， 这 里 存在 重合 的 预定 日 期 。 为 了 让 大 家 看 得 更 清晰 ， 


我 们 把 表 中 数据 转换 成 了 柱状 图 。 
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10/25 10/30 11/01 11/05 



































显然 ， 这 样 会 有 问题 ， 必 须 马 上 重新 分 配 房间 。 我 们 面 对 的 问题 是 如 
何 查 出 住宿 日 期 重 登 的 客人 并 列表 显示 。 
下 面 ， 我 们 给 重 登 的 住宿 日 期 分 类 ， 可 知 一 共有 下 面 三 种 类 型 。 


































































































图 日 期 的 重要 类 型 














































































































(1) 自己 的 入 住 日 期 在 他 人 的 住宿 期 间 内 自己 e 
tb 人 ee 
(2) 自己 的 离 店 日 期 在 他 人 的 住宿 期 间 内 自己 9 一 
也 人 到 
(3) 自己 的 入 住 日 期 和 离 店 日 期 都 在 他 人 的 住宿 期 间 内 自己 e——e 
也 人 




















例如 ， 在 韧 看 来 ,荒木 是 属于 类 型 1) 的 ; 相反 ， 在 荒木 看 来 ， 亏 是 
属于 类 型 (2) 的 。 而 山本 的 住宿 期 间 完 全 在 内 田 的 住宿 期 间 内 ， 所 以 在 山 
本 看 来 ， 内 田 是 属于 类 型 (3) 的 。 因 此 ， 我 们 只 要 找 出 满足 这 三 种 类 型 中 
王 意 一 种 的 客人 就 可 以 了 。 但 是 ， 稍 微 考虑 一 下 我 们 就 会 发 现 ， 其 实 类 型 
(3) 的 情况 忽略 掉 也 没有 问题 。 原 因 是 ， 满 足 (3) 和 同时 满足 (D)、(2) 是 等 
介 的 。 
寻 此 ， 充 要 条 件 是 满足 类 型 (1) 和 类 型 (2) 中 至 少 一 个 条 件 ， 解 答 如 
下 所 示 。 























































































































-- 求 重要 的 住宿 期 间 


SRCEETESEEVEE startidate endndate 














FROM Reservations R1 
WHERE EXISTS 
(SELECT * 
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FROM Reservations R2 
WHERE RI reSeLVer <> RI.TeSOrVET 5 





二 
AND ( Ril.start date BETWEEN R2.start 








自己 以 外 的 客人 进行 比较 
date AND R2.end date 














-- 条 件 (1); 自己 的 入 





主 日 期 在 他 人 的 住宿 期 间 内 








OR Rl.end date BETWEEN R2.start date AND R2.end date)) 

















-- 条件 (2) : 自己 的 离 











国 执行 结果 


KeseErVerestareEaaEeaaenagaaEe 








荒木 2006-10-28 2006-10-31 
亏 2006-10-31 2006-11-01 
山本 2006-11-03 2006-11-04 
内 005= T1100 












































让 日 期 在 他 人 的 住宿 期 间 内 








请 注意 ， 因 为 自己 和 自己 在 住宿 期 间 上 肯定 是 重 登 的， 所 以 如 果 没 有 








R1.reserver <> R2.reserver 这 个 条 件 , 所 有 人 都 会 出 现在 结果 列表 里 。 








相反 ， 如 果 想 求 “ 与 任何 住宿 期 间 都 不 重合 的 








EXISTS 谓词 改写 成 NoT EXISTS 谓词 就 可 以 了 。 





















































日 期 ” 我 们 只 需要 把 


下 面 继续 分 析 上 面 的 SQL 语句 。 如 果 山 本 的 入 住 日 期 不 是 11 月 3 号 ， 
而 是 推迟 了 一 天 ， 即 11 月 4 号， 那么 查询 结果 里 将 不 会 出 现 内 田 。 这 是 









































因为 ， 内 田 的 入 住 日 期 和 离 店 日 期 都 不 再 与 任何 人 重合 ， 于 是 条 件 (1) 和 





条 件 (2) 就 都 不 满足 了 。 换 句 话说 ， 像 内 田 这 种 
了 他 人 的 住宿 期 间 的 情况 ， 会 被 这 条 SQL 语句 提 












































-- 升级 版 : 把 完全 包含 别人 的 住宿 期 间 的 情况 也 输出 
SHERCEEESEEVEARSEaREEOae endlidate 
FROM Reservations R1 
WHERE EXISTS 
(SELECT * 
FROM Reservations R2 
WHERE RI.reserver <> R2.reserver 











AND ( \( Rl1.start date BETWEEN 
AND 

OR Ril.end date BETWEEN 

AND 

OR ( R2.start date BETWEEN 

AND 

AND R2.end date BETWEEN 

AND 

















R25 
Re 
RR 
R2 . 
R1. 
时 
RL 
Rl 








自己 的 住宿 期 间 完 全 包含 
FE 除 掉 。 
如 果 想 把 这 样 的 住宿 期 间 也 输出 ， 我 们 需要 追加 条 件 。 














start date 
EnmagEdqaee 
startldate 
end date) 
start date 
engqidate 
startldate 
engEdaee) oo 
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这 里 追加 的 条 件 是 把 前 面 的 条 件 中 的 oR 改写 成 了 AND，R1 改写 成 了 
R2， 刚 好 相反 。 























通过 本 节 的 例题 ， 相 信 你 已 经 明白 了 关联 子 查询 是 一 种 非常 强大 的 运 

算 。 在 这 里 ， 我 们 也 公正 地 介绍 一 些 它 的 缺点 。 第 一 个 缺点 是 代码 的 可 读 
性 不 好 。 可 能 也 是 因为 还 不 太 习 惯 使 用 关联 子 查询 ， 所 以 使 用 了 关联 子 查 
询 的 SQL 语句 一 般 都 不 能 让 人 一 眼 就 看 明白 。 特 别 是 在 计算 累计 值 和 移 
动 平均 值 的 例题 里 ， 与 聚合 一 起 使 用 后 ， 其 内 部 处 理 过 程 非常 难 理解 。 第 
二 个 缺点 是 性 能 不 好 。 特 别 是 在 SELECT 子 句 里 使 用 标量 子 查 询 时 ， 性 能 
可 能 会 变 差 ,需要 注意 一 下 。 借 用 Joe Celko 的 话 来 说 就 是 ， 程 序 员 和 查 

询 优化 者 都 很 难 读 懂 关 联 子 查 询 。 

无 论 使 用 什么 语言 和 什么 技术 ， 都 没有 万 能 的 银 弹 @。 我 们 掌握 的 任 











































































































































































































































































































即 银色 子弹 ， 在 传说 中 ， 银 色 子 、 人 ce 
弹 往 往 被 描绘 成 吴 有 驱 魔 功效 的 。” 何 一 样 东西 ， 都 像 一 把 双 刃 剑 ， 有 着 好 和 坏 两 面 。 关 联 子 查询 这 样 的 具有 
武器 ， 现 在 多 被 比喻 为 具有 极端 法 要 a 、 
ee: 强大 威力 的 武器 也 有 着 与 其 能 力 相 当 的 缺点 。 希 望 大 家 明白 这 一 点 ， 然 后 
Ce 运用 智慧 合理 地 利用 它 。 

编者 注 








下 面 是 本 节 要 点 。 
1. 作为 面向 集合 语言 ，SQL 在 比较 多 行 数据 时 ， 不 进行 排序 和 循环 。 
SQL 的 做 法 是 添加 比较 对 象 数 据 的 集合 ， 通 过 关联 子 查 询 (或 者 自 
连接 ) 一 行 一 行 地 偏 移 处 理 。 如 果 选 用 的 数据 库 支 持 窗 口 函 数 ， 也 可 以 考 
虑 使 用 窗口 函数 。 
3. 求 累计 值 和 移动 平均 值 的 基本 思路 是 使 用 冯 “' 诺 依 曼 型 递归 集合 。 
4. 关联 子 碍 询 的 缺点 是 性 能 及 代码 可 读 性 不 好 。 
5. 人 生 中 不 可 能 所 有 的 事情 都 一 帆 风 顺 。 
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如 果 大 家 想 了 解 更 多 关于 关联 子 碍 询 的 内 容 ， 请 参考 下 面 的 资料 。 











1. Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人 民 邮电 出 版 社 ，2013 年 ) 
关于 累计 值 的 求法 ， 请 参考 该 书 31.6 节 “ 黑 积 统计 ” 
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裘 宗 燕 译 ， 机 械 工业 出 版 社 ， 


2000 年 








。 一 一 编者 注 
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2. Joe Celko,《SQL 编程 风格 》( 人 民 邮 电 出 版 社 ，2008 年 ) 
该 书 可 以 说 是 Brian W. Kernighan 和 Rob Pike 的 著作 《程序 设计 实践 》@ 的 
SQL 版 ， 是 一 本 值得 细 细 品味 的 书 。 6.9 节 “ 避 免 使 用 关联 子 查询 ”从 
代码 可 读 性 和 性 能 的 角度 讲解 了 为 什么 要 避免 滥用 关联 子 查 询 。 

3. Joe Celko,《SQL 解 惑 (第 2 版 )》( 人 民 邮 电 出 版 社 ，2008 年 ) 
关于 累计 值 的 计算 ,请 参考 “ 谜 题 35 库存 调整 ”"”， 关 于 移动 平均 值 的 求 
法 ,请 参考 “ 谜 题 37 移动 平均 数 ”; 关于 查询 重 登 的 时 间 区 间 , 请 参考 “ 谜 
题 6 预约 旅馆 房间 ”和 “ 迹 题 47 连 号 的 座位 ”。 

4. 明智 重 藏 一 一 求 移动 平均 值 
(http://oraclesqlpuzzle.hp.infoseek.co.jp/8-5.html) 
文中 分 别 介绍 了 使 用 窗口 函数 和 关联 子 查 询 求 移动 平均 值 的 方法 。 其 ! 
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使 用 关联 子 查 询 的 实现 方法 用 到 了 BETWEEN 请 词 ， 非 常 简洁 。 



































在 “用 列表 展示 与 上 一 年 的 比较 结果 ”部 分 ， 我们 比较 了 企业 每 年 的 
营业 额 与 上 一 年 相 比 是 否 增加 。 其 实 ,第 一 条 SQL 的 性 能 还 有 改善 的 余地 。 
在 三 个 WHEN 子 句 里 ， 同 样 的 子 查询 执行 了 三 次 ， 有 点 多 余 ， 所 以 请 把 它 
们 整合 在 一 个 WHEN 子 句 里 。 










































































@ 练 习题 1-6-2 : 使 用 OVERLAPS 查询 重 又 的 时 间 区 间 














很 多 人 都 不 知道 ，SQL-92 提供 了 oVERLAPS 谓词 (Oracle 和 PostgreSQL 























已 支持 )， 目 的 正 是 用 来 查询 重 车 的 时 间 区 间 。 这 个 谓词 的 用 法 如 下 所 示 。 

































































(开始 日 期 1, 结束 日 期 1) ovERLAPS (开始 日 期 2, 结束 日 期 2) 























请 使 用 这 个 函数 改写 “查询 重 闭 的 时 间 区 间 ” 部 分 里 的 SQL (P.108)， 
并 对 比 一 下 执行 结果 。 正 文中 使 用 的 是 BETWEEN， 而 这 里 是 OVERLAPS， 
这 两 种 方法 的 执行 结果 稍微 有 点 不 同 。 理 解 其 区 别 在 哪儿 就 是 这 道 练 习题 
的 目的 。 
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@@ 练 习题 1-6-3: SUM 函数 可 以 计算 出 累计 值 ， 那 么 MAX、MIN、 


AVG 可 以 计算 出 什么 ? 
“移动 累计 值 和 移动 平均 值 ” 部 分 介绍 了 求 累 计 值 的 SQL 语句 。 如 果 
把 SQL 语句 里 的 SUM 函数 改 成 MAX 函数 ， 结 果 会 怎样 呢 ? 结果 值 的 意义 
又 是 什么 呢 ? 








-- 窗口 函数 版 
SErnCr rendaten poate 
MAX (prc amt) OVER (ORDER BY prc date) AS onhand max 
FROM Accounts; 


-- 关联 子 查询 版 版 
SELECHPreldate AL pee ame 
(SELECT MAX (prc amt) 
FROM Accounts A2 
WHERE Al.prc date >= A2.prc date ) AS onhand max 
FROM Accounts Al 
©ORDEReBYVe pr edaate, 





图 执行 结果 








REeEaaee prc_amt onhand max 
A006 L026 12000 
2006-10-28 2500 
OOS 0 3 5000 

这 里 的 值 
a006 -0 0 34000 已 
2006-11-04 -5000 2 
3006 二 全 本 06 00 
20.06 -T=11 11000 











用 MAX 函数 计算 之 后 ， 也 请 再 用 MIN 函数 和 AvVG 函数 计算 一 下 。 实 
际 执行 之 前 ， 请 先 思 考 一 下 ， 然 后 再 确认 执行 结果 与 设想 是 否 一 样 。 
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| 用 SQL 进行 集合 运算 


> SOL 和 集合 论 

SQL 语言 的 基础 之 一 是 集合 论 。 但 是 ， 很 长 一 段 时 间 内 ， 由 于 SQL 没 能 很 好 地 支持 集合 运算 ， 所 以 
相关 功能 并 没有 被 人 们 充分 地 利用 。 过 去 这 些 年 ，SQL 凑 齐 了 大 部 分 基础 的 集合 运算 ， 人 们 终于 可 以 真 
正 地 使 用 它 了 。 本 节 ， 我 们 将 学 习 一 些 使 用 了 集合 运算 的 技术 ， 并 深入 思考 一 下 它们 背后 的 思想 。 





集合 论 是 SQL 语言 的 根基 一 一 这 是 贯穿 全 书 的 主题 之 一 。 因 为 它 的 
这 个 特性 ，SQL 也 被 称 为 面向 集合 语言 。 笔 者 认为 ， 只 有 从 集合 的 角度 来 
思考 ， 才 能 明白 SQL 的 强大 威力 。 但 是 ， 实 际 上 这 一 点 长 期 以 来 都 被 很 
多 人 忽略 了 。 

造成 这 种 状况 ，SQL 本 身 也 是 要 负 一 定 责任 的 。 其 实 ， 在 很 长 一 段 时 
间 内 ，SQL 连 我 们 在 高 中 学 习 过 的 基础 的 集合 运算 符 都 没有 。UNION 是 
SQL-86 标准 开始 加 入 的 ， 还 算 比 较 早 ， 而 INTERSECT 和 EXCEPT 都 是 
SQL-92 标准 才 加 入 的 。 至 于 关系 除法 运算 (DIVIDE BY)， 更 是 至 今 还 没 
有 被 标准 化 ， 这 个 前 面 也 提 到 过 。 有 人 以 此 来 批评 SQL 作为 一 种 语言 3 
说 并 不 完整 。 这 种 看 法 也 不 是 没有 道理 的 。 

但 是 ， 今 天 的 标准 SQL 已 经 包含 了 大 部 分 基础 的 集合 运算 符 ， 各 大 
数据 库 提 供 商 也 紧 随 其 后 给 出 了 相关 功能 的 实现 ， 人 们 终于 可 以 真正 地 使 
用 它 了 。 本 节 将 介绍 一 些 使 用 了 集合 运算 的 好 用 的 SQL， 解 释 一 下 它们 的 
思路 ， 并 从 不 同 角 度 来 深入 了 解 SQL 的 本 质 。 































































































顾名思义 ， 集 合 运 算 符 的 参数 是 集合 ， 从 数据 库 实现 层面 上 来 说 就 是 
表 或 者 视图 。 因 为 和 高 中 学 过 的 集合 代数 很 像 ， 所 以 理解 起 来 相对 比较 容 
易 。 但 是 ，SQL 还 是 有 几 个 特别 的 地 方 需要 注意 一 下 。 
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注意 事项 1: SQL 能 操作 具有 重复 行 的 集合 ， 可 以 通过 可 选项 ALL 
来 支持 

一 般 的 集合 论 是 不 允许 集合 里 存在 重复 元 素 的 , 因此 集合 {1, 1, 2, 3, 3， 
3} 和 集合 {1, 2, 3} 被 视 为 相同 的 集合 。 但 是 关系 数据 库 里 的 表 允 许 存在 
复 的 行 ， 称 为 多 重 集 合 (maultiset, bag)。 

因此 ,SQL 的 集合 运算 符 也 提供 了 允许 重复 和 不 允许 重复 的 两 种 用 法 。 
如 果 直 接 使 用 UNION 或 INTERSECT， 结 果 里 就 不 会 出 现 重复 的 行 。 如 果 
想 在 结果 里 留 下 重复 行 ， 可 以 加 上 可 选项 ALL， 写 作 UNION ALL。ALL 的 
作用 和 sELECT 子 句 里 的 DISTINCT 可 选项 刚好 相反 。 但 是 ,不 知道 为 什么 ， 
SQL 并 不 支持 UNION DISTINCT 这 样 的 写法 。 

除了 运算 结果 以 外 ， 这 两 种 用 法 还 有 一 个 不 同 。 集 合 运算 符 为 了 排除 
掉 重 复 行 ， 默 认 地 会 发 生 排序 ， 而 加 上 可 选项 ALL 之 后 ， 就 不 会 再 排序 ， 
所 以 性 能 会 有 提升 。 这 是 非常 有 效 的 用 于 优化 查询 性 能 的 方法 ， 所 以 如 果 
不 关心 结果 是 否 存在 重复 行 ， 或 者 确定 结果 里 不 会 产生 重复 行 ， 加 上 可 选 


项 ALL 会 更 好 些 。 
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注意 事项 2: 集合 运算 符 有 优先 级 

标准 SQL 规定 ，INTERSECT 比 UNION 和 EXCEPT 优先 级 更 高 。 因 此 ， 
当 同 时 使 用 UNION 和 INTERSECT， 又 想 让 UNION 优先 执行 时 ， 必 须 用 括 
号 明确 地 指定 运算 顺序 〈 本 节 最 后 有 一 道 练习 题 是 关于 这 个 知识 点 的 ， 可 
以 练习 一 下 )。 












































注意 事项 3: 各 个 DBMS 提供 商 在 集合 运算 的 实现 程度 上 参差 不 齐 
前 面 说 过 ， 早 期 的 SQL 对 集合 运算 的 支持 程度 不 是 很 高 。 受 到 这 
点 影响 ， 各 个 数据 库 提供 商 的 实现 程度 也 参差 不 齐 。SQL Server 从 2005 
版 开始 支持 INTERSECT 和 EXCEPT， 而 MySQL 还 都 不 支持 (包含 在 “中 
长 期 计划 ”里 )。 还 有 像 Oracle 这 样 ， 实 现 了 EXcEPT 功能 但 却 命 名 为 
MINUS 的 数据 库 。 这 一 点 比较 麻烦 ， 因 为 Oracle 用 户 需 要 在 使 用 时 将 


EXCEPT 全 部 改写 成 MINUS。 






































注意 事项 4: 除法 运算 没有 标准 定义 
四 则 运算 里 的 和 “(UNION)、 差 (EXCEPT)、 积 (CROSS JOIN) 都 被 引 
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入 了 标准 SQL。 但 是 很 遗憾 ， 商 (DIVIDE BY) 因为 各 种 原因 迟 迟 没 能 标 
准 化 (具体 原因 请 参考 1-4 节 里 的 解释 )。 因 此 ， 现 阶段 我 们 需要 自己 写 
SQL 语句 来 实现 除法 运算 。 










































































接 下 来 ， 我 们 来 看 看 集合 运算 的 实际 应 用 。 

在 迁移 数据 库 的 时 候 ， 或 者 需要 比较 备份 数据 和 最 新 数据 的 时 候 ， 我 
们 需要 调查 两 张 表 是 否 是 相等 的 。 这 里 说 的 “相等 ” 指 的 是 行 数 和 列 数 以 
及 内 容 都 相同 ， 即 “是 同一 个 集合 ”的 意思 。 例 如 ， 下 面 的 表 tbl A 和 
tbl_B， 虽 然 名 称 不 同 ， 但 是 是 同一 个 集合 。 































































































图 名 字 不 同 但 内 容 相同 的 两 张 表 
tbl_A tbl_B 


key Coleceo2 (elo) re: key Co eeoE2 cos 





























有 没有 什么 办 法 能 让 我 们 像 比较 文件 一 样 来 比较 两 张 表 是 相等 还 是 
不 相等 呢 ? 如 果 像 上 面 这 两 张 表 一 样 ， 只 有 几 行 数 据 ， 那 么 用 眼睛 就 能 
清楚 。 但 是 ， 如 果 是 几 百 列 或 者 几 干 万 行 ， 就 不 可 能 用 眼睛 看 清楚 了 。 

此 时 做 法 有 两 种 。 我 们 先 看 一 个 简单 的 ,只 用 UNION 就 能 实现 的 方法 。 
这 里 先 假设 已 经 事先 确认 了 表 tbl A 和 表 tbl B 的 行 数 是 一 样 的 (如 果 行 
数 不 一 样 ， 那 就 不 需要 比较 其 他 的 了 )。 
这 两 张 表 的 行 数 都 是 3。 如 果 下 面 这 条 SQL 语句 的 执行 结果 是 3， 则 
说 明 两 张 表 是 相等 的 。 相 反 ， 如 果 结 果 大 于 3， 则 说 明 两 张 表 不 相等 。 

















T 
























































































































































图 如 果 这 个 查询 的 结果 与 tbl_A 及 tbl_B 的 行 数 一 致 ， 则 两 张 表 是 相等 的 


SELECT COUNT (*) AS row cnt 
EROM 帮 (是 SETURECET 
FROM tbl A 
UNION 
SEEECT* 
BROMIG OIE MBS 
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图 执行 结果 


row_cnt 



































J 





这 种 做 法 的 原理 是 什么 呢 ? 请 回忆 一 下 “导入 篇 ”里 的 注意 事项 1。 
如 果 集合 运算 符 里 不 加 上 可 选项 at， 那么 重复 行 就 会 被 排除 掉 。 因 此 ， 
如 果 表 tbl_A 和 表 tbl_B 是 相等 的 ， 排 除 掉 重 复 行 后 ， 两 个 集合 是 完全 重 
合 的 。 







































































如 果 两 个 集合 是 相同 ， 如 果 两 个 集合 不 相同 ， 
则 它们 的 并 集 也 是 相同 则 它们 的 并 集 将 与 原来 的 集合 不 同 
AUNIONB=A=B AUNIONBzAz¥B 























如 果 像 下 面 这 样 ， 两 张 表 有 一 行 数据 不 一 样 ， 结 果 就 会 变 成 4。 这 是 
因为 ， 如 果 茶 一 行 数据 不 同 ， 那 么 排除 掉 重 复 行 后 这 一 行 也 还 会 存在 ， 两 
张 表 没 办 法 完全 重合 。 



































图 key 列 为 B 的 一 行 数据 不 同 : 结 
tbl_A 


colT | col2 cols col_1 Col20leolas 


3 4 
7 9 
| 6 









































前 面 的 SQL 语句 可 以 用 于 包含 NULL 数据 的 表 , 而 且 不 需要 指定 列 数 、 
列 名 和 数据 类 型 等 就 能 使 用 ， 还 是 很 方便 的 。 此 外 ， 因 为 这 条 SQL 语句 
只 使 用 了 UNION， 所 以 在 MySQL 数据 库 里 也 可 以 使 用 。 当 然 ， 我 们 也 可 
以 只 比较 表 里 的 一 部 分 列 或 者 一 部 分 行 。 只 需要 指定 一 下 想 要 比较 的 列 的 
名 称 ， 或 者 在 WHERE 子 句 里 加 入 过 滤 条 件 就 可 以 比较 了 。 

从 上 面 的 例题 看 出 ， 对 于 任意 的 表 S， 都 有 下 面 的 公式 成 立 。 



























































































































































@ 116 





从 这 个 意义 上 来 讲 ， 如 果 把 软件 
的 安装 和 钾 载 看 成 一个 整体 的 运 
算 ， 那 么 它 也 是 累 等 的 。 这 是 因 
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S UNION S = S 


这 是 UNION 的 一 个 非常 重要 的 性 质 ， 在 数学 上 我 们 称 之 为 寡 等 性 























(indempotency)。 窜 等 性 原本 是 抽象 代数 里 群 论 等 理论 中 的 概念 ， 有 多 种 意 
思 ， 与 本 节 内 容 在 意思 上 相近 的 一 种 是 “二 目 运 算 符 * 对 任意 S， 都 有 S*S=S 














成 立 ”。 如 果 按 这 个 意思 理解 ，UNION 运算 是 早 等 的 。 
在 编程 领域 ， 一 般 把 这 个 意思 扩展 成 “同一 个 程序 无 论 执行 多 少 次 结 














果 都 是 一 样 的 ”来 使 用 8。 举 一 个 常见 的 例子 ， 
满足 暴 等 性 的 。 同 一 个 文件 无 论 被 引用 多 少 次 ， 














C 语言 头 文件 的 设计 就 是 
都 与 只 引用 一 次 的 效果 相 














为 ， 卸 载 后 ， 系 统 环境 会 回 到 安 
装 之 前 的 状态 。 如 果 将 这 个 运算 
记 作 蕊 ， 将 系统 环境 记 作 E， 那 
么 相当 于 IU(E) = E。 当 然 ， 无 论 
执行 多 少 次 结果 都 是 不 变 的 ， 所 
以 IUGIUGIUGE))) = Eo 

















同 。 同 理 ，HTTP 的 GET 方法 也 是 窜 等 的 。 同 柱 
都 是 安全 的 。 寺 等 性 在 用 户 界 









































的 请 求 无 论 进行 多 少 次 ， 





看 设计 方面 有 非常 重要 的 作用 。 例 如 ， 保 证 























按钮 无 论 被 点 击 多 次 ， 都 与 被 点 击 一 次 时 的 效果 完全 相同 














设计 交互 界面 时 对 于 安全 方 国 

对 于 
那么 因为 无 论 执 行 多 少 次 结果 都 是 相同 的 ， 所 以 
此 ， 我 们 可 以 把 它 用 在 比较 三 张 以 上 的 表 是 否 


的 基本 要 求 。 
















































































国 同一 个 集合 无 论 加 多 少 次 结果 都 相同 


S UNION S UNION S UNION S 


























么 每 次 结果 都 会 有 变化 ， 所 以 说 UNION ALL 不 











这 是 我 们 在 








站 合 运 算 里 的 UNION， 如 果 将 s_ UNION s 看 作 一 个 执行 单元 ， 


S UNION Ss 也 是 昭 等 的 。 


相等 。 


有 一 点 需要 注意 的 是 ， 如 果 改 成 对 s 执行 多 次 UNION ALL 操作 ， 那 


具有 窜 等 性 。 





类 似 地 ， 如 





果 对 拥有 重复 行 的 表 进行 UNION 操作 ， 也 会 失去 震 等 性 。 换 名 话说 ， 




















UNION 的 这 个 优雅 而 强大 的 窜 等 性 只 适用 于 数学 意义 上 的 集合 ， 
由 此 ， 我 们 应 该 明 





























中 有 重复 数据 的 多 重 集 合 是 不 适用 的 。 
是 多 么 地 重要 。 
在 开始 继续 学 习 之 前 ， 这 里 先 提 一 个 问题 : 


个 集合 运算 符 

































































对 SQL 





























除了 UNION 以 外 ， 还 有 哪 





有 和 窜 等 性 ? 下 面 我 们 将 会 使 用 它 。 
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在 前 面 的 解法 中 ， 寿 









































数据 的 行 数 。 虽 然 
SQL 语句 ， 
演示 。 

在 集合 论 里 ， 关 

















E 比 较 两 张 表 之 前 ， 我 们 需要 先 要 查 一 下 两 张 表 里 
这 点 准备 工作 也 不 算 麻烦 ， 但 我 们 还 是 改进 一 下 这 条 
让 它 能 直接 比较 两 张 表 吧 。 这 里 





























还 使 用 表 tbl A 和 表 tbl B 来 








定 两 个 集合 是 否 相 等 时 ， 一 般 使 用 下 面 两 种 方法 。 


1.(ACB) 且 (AD BS(A=B) 
2.(AUB)=(ANB)S(A=B,) 














第 一 种 方法 利用 
集合 A 包含 集合 B， 且 集合 B 























两 个 集合 的 包含 关系 来 判定 其 相等 性 ， 意 思 是 “如 果 











包含 集合 A， 则 集合 A 和 集合 B 相等 ” 





这 个 办 法 可 行 ， 只 是 有 点 麻烦 (这 种 方 





第 二 种 方法 利用 两 个 集合 的 六 











法 在 稍 后 的 例题 中 有 涉及 )。 














二 














语言 描述 ， 那 就 是 “如 果 A _ UNION B 





合 B 相等 ”。 








这 利 





方法 写 起 来 更 简单 。 
如 果 集 合 A 和 集合 B 相等 , 那么 A UNION B = A = B 以 及 A INTERSECT 











B = A = B 都 是 成 立 的 。 没 错 ， 除 了 
运算 符 就 是 INTERSECT。 

相反 ， 如 果 A 关 B，UNION 和 INTERSECT 的 结果 就 不 相同 了 。UNION 
的 运算 结果 行 数 肯 定 会 变 多 。 下 面 的 图 描述 了 两 个 不 相同 的 集合 A 和 B 
相互 接近 的 动画 ， 请 大 家 想象 一 下 这 个 过 程 ， 这 样 
应 该 更 好 理解 UNION 和 INTERSECT 的 区 别 。 


之 间 的 差异 逐 

















簿 渐变 小 、 


集 和 差 集 来 判定 其 相等 性 。 如 果 用 SQL 








= A INTERSECT B， 则 集合 A 和 集 











UNION 之 外 ， 另 一 个 具有 只 等 性 的 








如 果 A = B， 刚 好 完全 重 























DOO©® 














A AUNONB ~ B A AINTERSECTB B 
剩 下 的 问题 是 , 对 A 和 B 分 别 进行 UNION 运算 和 INTERSECT 运算 后 ， 
如 何 比较 这 两 个 结果 。 目 前 我 们 已 经 明白 了 下 面 这 一 
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(A INTERSECT B ) C 




















hy 














集 就 可 以 了 。 























知道 列 名 和 列 数 ， 还 可 以 

















-- 两 张 表 相等 时 返 下 




















“相等 *"， 否 则 返回 “不 相等 ” 








SELECT CASE WHEN COUNT(*) = 0 


FROM 


THEN ' 相 等 ' 
ELSE ' 不 相等 ' END AS result 
((SELECT * FROM tbl A 
UNION 
SELECT * FROM 
EXCEPT 
(SELECT * FROM 
INTERSECT 
SELECT * FROM 


tbl _B) 


tbl A 





tbl B)) TMP; 


( A UNION B ) 





羽 此 ， 只 需要 判定 (A UNION B) EXCEPT (A INTERSECT B) 的 结果 
如 果 A =B， 则 这 个 结果 集 是 空 集 ， 否 则 ， 这 个 








这 条 SQL 语句 与 上 一 部 分 中 的 SQL 语句 具有 同样 的 优点 ， 也 不 需要 























于 包含 NULL 的 表 ， 而 且 ，i 





这 个 改进 版 连 事先 


查询 两 张 表 的 行 数 这 种 准备 工作 也 不 需要 了 。 但 是 ， 虽 然 功 能 改进 了 ， 却 


也 带 来 了 一 些 缺 陷 。 























DISTINCT), 所 以 性 能 会 有 所 下 降 (不 过 这 条 SQL i 











由 于 这 里 需要 进行 4 次 排序 (3 次 集合 运 
百名 也 不 需要 频繁 执行 ， 


云 算 加 上 1 次 



































所 以 这 点 缺陷 也 不 是 不 能 容忍 )。 此 外 ， 因 为 这 里 使 用 了 INTERSECT 和 
EXCEPT， 所 以 目前 这 条 SQL 话 句 不 能 在 MySQL 里 执行 。 请 综合 考虑 


下 两 者 的 优势 和 缺陷 ， 选择 使 用 j 


| 
Ln 





来 看 一 看 吧 。aiff 命令 是 
于 Giff; 只 不 

















这 条 或 者 前 一 部 分 里 的 SQL 语句 。 














那么 ， 



































过 是 用 来 比较 表 的 。 我 们 只 需要 求 出 


可 以 了 ， 代 码 如 下 所 示 。 

















(SE 


EXCEPT 


SE 


于 比较 表 与 表 的 diff 
LECT * FROM tbl A 











BECT + EROME EDO) 


UNION ALL 


(SE 


EET EROMO EO 


EXCEPT 


SE 





RCRROMRRLEDIE AN 


既然 我 们 知道 了 两 张 表 的 数据 有 差异 ， 接 下 来 就 把 不 同 的 行 输 
j 来 比较 文件 的 ， 而 这 里 的 SQL 语句 就 相当 








两 个 集合 的 异 或 集 就 
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图 执行 结果 


keyo eo con So 
B 0 束 9 
8 0 8 
































Oe i ein dd 
UNION ALL 也 没有 关系 。 在 A 和 B 一 方 包含 男 一 方 时 , 这 条 SQL 语句 也 
是 成 立 的 (这 时 A 一 B 或 者 B 一 A 有 一 个 会 是 空 集 )。 需 要 注意 的 是 ， 在 
SQL 中 ， 插 号 决定 了 运算 的 先后 顺序 ， 非 常 重要 ， 如 果 去 掉 插 号 ， 结 果 就 
会 不 正确 。 
























































本 用 差 集 实现 关系 除法 运算 
在 本 节 开 头 的 “导入 篇 ”里 我 们 说 过 ，SQL 里 还 没有 能 直接 进行 关 
系 除法 运算 的 运算 符 。 因 此 ， 为 了 进行 除法 运算 ， 必 须 自 己 实 现 。 方 法 比 


较 多 ， 其 中 具有 代表 性 的 是 下 面 这 三 个 。 











































































































1. 肉 套 使 用 NOT EXISTS。 
2. 使 用 HAVING 子 句 转换 成 一 对 一 关系 。 
3. 把 除法 变 成 减法 。 





本 节 将 介绍 一 下 第 三 种 方法 。 
合 论 里 的 减法 指 的 是 差 集运 算 。1-5 节 在 介绍 用 外 连接 求 差 集 

的 方法 时 候 留 了 一 个 问题 ， 解 法 就 是 上 面 的 方法 3， 现 在 我 们 来 解答 
一 下 。 




































































关于 示例 数据 ， 我 们 选用 的 是 下 面 这 两 张 员工 技术 信息 管理 表 。 
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Skills EmpSkills 


skill ( 技术 ) emp ( 员工 ) skill ( 技术 ) 
Oracle 




















UNIX 














Java 
C# 
Oracle 
UNIX 
Java 
UNIX 
Oracle 
PHP 
Perl 

























































































C++ 
Perl 
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这 里 的 问题 是 ,从 表 EmpSkills 中 找 出 精通 表 Skills 中 所 有 技术 的 员工 。 
也 就 是 说 ， 答 案 是 相 田 和 神崎 。 平 井 很 可 惜 ， 会 的 技术 很 多 ， 但 是 不 会 
Java， 所 以 落选 了 。 

我 们 即将 学 习 的 方法 的 思路 跟 面 向 过 程 语言 非常 像 ， 所 以 可 能 比 使 用 
HAVING 子 句 的 方法 更 好 理解 一 些 。 那 么 我 们 先 看 一 下 答案 吧 。 
































































































































-- 用 求 差 集 的 方法 进行 关系 除法 运算 ( 有 余数 ) 
SELECT DISTINCT emp 
FROM EmpSkills ES1 
WHERE NOT EXISTS 
WSEEECTE SN 
FROM Skills 
EXCEPT 
SELECT skill 
FROM EmpSkills ES2 
WHERE ES1.emp = ES2.emp); 














图 执行 结果 
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YH 





里 解 这 段 代 码 的 要 点 在 于 EXCEPT 运算 符 和 关联 子 查 询 。 关 联 子 查询 
建立 在 表 EmpSkills 上 ， 这 是 因为 ， 我 们 要 针对 每 个 员工 进行 集合 运算 。 
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即 从 需求 的 技术 的 集合 中 减 去 每 个 员工 自己 的 技术 的 集合 ， 如 果 结 果 是 空 
集 ， 则 说 明 该 员工 具备 所 有 的 需求 的 技术 ， 和 否则 说 明 该 员工 不 具备 某 些 需 
求 的 技术 。 

例如 ， 我 们 先 看 一 下 相 田 。 可 以 看 到 ， 集 合 运算 的 结果 是 空 集 ， 所 以 
符号 条 件 





需求 的 技术 相 田 具 备 的 技术 
Oracle 空 集 ! 


| . ， 
| 


下 面 再 看 一 下 平井 的 情况 。 























需求 的 技术 























结果 里 剩 下 了 Java 这 一 行 ， 所 以 平井 不 符合 条 件 。 也 就 是 说 ， 这 里 
的 解 题 思路 是 先 把 处 理 的 单位 分 割 成 了 以 员工 为 单位 ， 然 后 将 除法 运算 还 

ED) 。 原 成 了 更 加 简单 的 减法 运算 。 这 个 解法 与 “将 困难 分 解 ”9 这 句 格言 的 思 

寺 ， 交 能 分解 成 2 部。 想 一 致 ， 还 是 很 巧妙 的 。 

a goo 下 面 再 看 一 下 解 题 过 程 吧 。 有 没有 想到 些 什么 呢 ? 没 错 ， 其 实 这 条 

he om necesary 9 SQL 语句 的 处 理 方法 与 面向 过 程 语言 里 的 循环 、 中 断 控制 处 理 很 像 。 请 斌 
着 想象 一 下 把 这 两 张 表 当成 是 两 个 文件 ， 然 后 一 行 一 行 循环 处 理 的 过 程 。 
针对 某 一 个 员工 循环 判断 各 种 技术 的 掌握 情况 , 如 果 存 在 企业 需求 的 技术 ， 
就 进行 减法 运算 ， 如 果 不 存在 就 终止 该 员工 的 循环 ， 继 续 对 下 一 个 员工 执 
行 同样 的 处 理 。 





































































































































































































@ 122 





第 1 章 神奇 的 SOL 





众所周知 ， 关 联 子 查 询 是 为 了 使 SQL 能 够 实现 类 似 面向 过 程 语言 中 
注 @ 循环 的 功能 而 引入 的 8。 前 面 之 所 以 说 可 能 这 种 解法 相对 更 好 理解 ， 也 是 
二 实在 设计 之 初 ，S0L 就 有 意 接 人 
循环 、 赋 值 等 百 向 过 程 的 广 这 个 原因 。 
el “原来 如 此 。 本 来 是 除法 (division)， 但 这 里 将 问题 分 割 (divide) 了 
一 下 ， 用 减法 来 解答 了 啊 。” 


好 了 ， 这 一 节 就 到 这 里 。 下 面 我 们 学 习 其 他 内 容 。 
































































































































轩 0 寻找 相等 的 子 集 


| | de ee ee a 
下 面 这 个 谜 题 是 由 C.J. Date 于 1993 年 提出 的 ， 一 直 非 常 有 名 。 这 是 

也 沿用 他 当时 使 用 的 表示 “供应 商 - 零件 ”关系 的 表 作 为 示例 数据 ， 即 展 
注 @ 示 各 个 供应 商 及 其 经 营 的 零件 的 表 8。 


然 ， 里 也 存在 “供应 商 ” 和 
“零件 ”两 张 表 。 这 里 的 于 
SupParts 是 一 张 关 系 表 。 关 于 这 
张 表 的 更 多 信息 ， 请 参考 C. er 
J.Date 的 著作 《深度 探索 关系 数 EU 六 吧 才 part ( 零件 ) 
据 库 : 实践 者 的 关系 理论 》。 
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A 
A 
A 
B 
B 
€ 
GE 
C 
D 
D 
E 
E 
E 
F 











我 们 需要 求 的 是 ， 经 营 的 零件 在 种 类 数 和 种 类 上 都 完全 相同 的 供应 
商 组 合 。 由 上 面 的 表格 我 们 可 以 看 出 ， 答 案 是 A-C 和 B-D 这 两 组 。A 和 
E 虽然 经 营 的 零件 种 类 数 都 是 3， 但 是 零件 的 种 类 却 不 完全 相同 ， 所 以 
不 符合 要 求 。F 则 在 种 类 数 和 种 类 上 跟 其 他 供应 商都 不 相同 ， 所 以 也 不 
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这 个 问题 看 起 来 很 简单 ， 为 什么 会 成 为 谜 题 呢 ? 原因 是 ，SQL 并 没有 
提供 任何 用 于 检查 集合 的 包含 关系 或 者 相等 性 的 谓词 。IN 谓词 只 能 用 来 
检查 元 素 是 否 属 于 某 个 集合 〈E )， 而 不 能 检查 集合 是 否 是 某 个 集合 的 子 
集 (C)。 据 说 ，IBM 过 去 研制 的 第 一 个 关系 数据 库 实验 系统 一 一 System 
R 曾经 实现 了 用 CONTAINS 这 一 谓词 来 检查 集合 间 的 包含 关系 ， 但 是 后 来 
因为 性 能 原因 被 删除 掉 了 ， 直 到 现在 也 没有 恢复 。 所 以 ， 我 们 不 妨 称 它 为 
“传说 中 的 谓词 ”。 

这 个 问题 的 特点 在 于 比较 的 对 象 是 集合 。 这 一 点 与 前 面 的 关系 除法 运 
算 很 相似 。 但 是 ， 在 关系 除法 运算 中 ， 比 较 对 象 的 一 方 是 固定 的 (例如 前 













































































































































































































































































面 例 题 里 的 表 Skills)， 而 这 次 比较 的 双方 都 不 固定 。 这 时 ， 我 们 需要 比较 
所 有 子 集 的 全 部 组 合 ， 所 以 这 个 问题 更 具有 普遍 性 。 
首先 ， 我 们 来 生成 供应 商 的 全 部 组 合 。 方 法 是 我 们 已 经 非常 习惯 了 的 





























非 等 值 连接 。 使 用 聚合 只 是 为 了 去 除 重 复 。 














-- 生成 供应 商 的 全 部 组 合 
SEERCTRSRTESUDEASRESI SR2 SUpEASESZ 
EROM SupBartes® SE Supparts Se2 
WHERE SP1.sup < SP2.sup 

GROUP BYSPISSUuUp SP2 Sup 














图 执行 结 
sl 5S2 
A B 
A 他 
A D 
D E 
E F 





接 下 来 ， 我们 检查 一 下 这 些 供应 组 合 是 否 满足 以 下 公式 : (A Cc B) 
且 (A2B) => (A=B)。 这 个 公式 等 价 于 下 面 两 个 条 件 。 




















。 条 件 1: 两 个 供应 商都 经 营 同 种 类 型 的 零件 
。 条 件 2: 两 个 供应 商 经 营 的 零件 种 类 数 相同 ( 即 存在 一 一 映射 ) 
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注目 
关于 CONTAINS 谓词 的 语法 ， 请 
参考 Joe Celko 的 著作 Joe Cejko's 
SQL for Smarties: Advanced SQL 
Programming，Third Edition 中 的 
"27.3 The CONTAINS Operators”o 
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条 件 1 只 需要 简单 地 按照 “零件 ” 列 进行 连接 ， 而 条 件 2 需要 
COUNT 函数 来 描述 。 

SEEECT SPI Sup AS Sl SP2 .Sup YAS SR 

EROM I SupParts SP SupParts Sp2 
WHERE SP1.sup < SP2.sup -- 生成 供应 商 的 全 部 组 合 

AND SP1.part = SP2.patt -- 条 件 1 : 经 营 同 种 类 型 的 零件 
GROUBIBYSPE sup SP2 .sup 
HAVING COUNT(*) = (SELECT COUNT (*) -- 条 件 2 : 经 营 的 零件 种 类 数 相同 


AND COUNT(*) = 





图 执行 结果 


FROM SupParts SP3 

WHERE ‘SP3.8up = SP1.sup) 
(SELECT COUNT (*) 

FROM SupParts SP4 

WHERE SP4.sup = SP2.sup); 

















如 果 我 们 把 HAVING 子 句 里 的 两 个 条 件 当 成 精确 关系 除法 运算 ， 就 














会 很 好 理解 。 加 上 














素 个 数 一 致 ， 不 会 


又 保证 了 经 营 的 零件 类 型 也 都 是 完全 相同 的 。 这 档 


条 件 。 
对 于 这 个 谜 题 ， 





除法 运算 进行 了 一 般 化 ， 充 分 运 


8 现 不 足 或 者 过 剩 〈 即 存在 一 一 映射 )。 而 





这 两 个 条 件 后 ， 我 们 就 能 保证 集合 A 和 集合 B 的 元 











日， 条 件 1 








就 满足 了 本 题 的 全 部 


人 们 提出 了 各 种 各 样 的 解法 。 本 例 介绍 的 方法 对 关系 























j 了 SQL 的 面向 集合 的 特性 ， 


是 一 种 比 


较 巧 妙 的 解法 。 这 种 解法 告诉 我 们 ，SQL 在 比较 两 个 集合 时 ， 并 不 是 以 行 
为 单位 来 比较 的 ， 而 是 把 集合 当 作 整 体 来 处 理 的 。 

















最 后 稍微 说 点 题 外 话 。 刚 才 我 们 把 coNTAINS 谓词 称 作 了 传说 中 的 谓 























词 ， 但 是 如 果 它 可 以 使 用 ， 我 们 就 可 以 像 下 面 这 样 写 9。 


SELECT 'A _ CONTAINS 
FROM SupParts 


B! 


WHERE (SELECT part 
FROM SupParts 
WHERE sup = 'A') 
CONTAINS 
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(SELECT part 
FROM SupParts 
WHERE sup = "B'!) 








这 里 解释 一 下 ，A 2 B 即 “ 供 应 商 B 经 营 的 所 有 商品 供应 商 A 也 都 


经 营 ”。 如 果 存 在 这 样 的 供应 商 组 合 ， 则 返 ae 


怎么 样 ， 如 果真 的 能 用 ， 是 不 是 很 方便 呢 ? 现在 或 许 能 解决 性 能 的 问题 了 


所 以 或 许 不 久 以 后 这 个 功能 就 可 以 复活 了 呢 。 



































去 用 于 删除 重复 行 的 高 效 SQL 
最 后 ， 我 们 通过 关于 “删除 重复 行 ” 的 例题 来 练习 一 下 如 何 应 用 集合 
运算 。 关 于 这 个 问题 ， 在 1-2 节 我 们 也 曾 练习 过 。 我 们 再 看 一 下 当时 用 过 










































































name ( 商品 名 ) price ( 价格 ) 





重复 ! 




















删除 重复 行 





name ( 商品 名 ) price ( 价格 ) 



































当时 介绍 的 解法 是 使 用 关联 子 查 询 ， 代 码 非 常 简 单 。 


























-- 删除 重复 行 : 使 用 关联 子 查询 
DELETE FROM Products 
WHERE rowid < SELECT MAX (P2.rowid) 
FROM Products Pp2 
WHERE Products.name = P2. name 
ANDePnroduet seprioe prlece 
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这 种 做 法 不 算 太 差 ， 只 是 关联 子 查 询 的 性 能 问题 是 难点 〈 光 是 DELETE 
处 理 就 比较 耗 时 了 )。 因 此 ， 这 里 我 们 思考 一 下 如 何不 用 关联 子 查询 也 能 
实现 同样 的 功能 。 

上 面 这 条 语句 的 思路 是 ， 按 照 “ 商 品名 ， 价 格 ”的 组 合 汇总 后 ， 求 出 
每 个 组 合 的 最 大 *owida， 然 后 把 其 余 的 行 都 删除 掉 。 直 接 求 删除 哪些 行 比 
较 困 难 ， 所 以 这 里 先 求 出 了 要 留 下 的 行 ， 然 后 将 它们 从 全 部 组 合 中 提取 出 
来 除 掉 ， 把 剩 下 的 删除 一 一 这 就 是 补 集 的 思想 。 使 用 关联 子 查 询 的 这 种 方 
法 是 以 “商品 名 , 价格 ”组 合 为 单位 来 处 理 的 《面向 过 程 语 言 的 循环 、 中 
断 控制 )。 接 下 来 ， 我 们 在 子 查询 里 直接 求 出 要 删除 的 rowia。 

我 们 假设 表 中 加 上 了 “rowid” 列 ， 如 下 所 示 。 





























和 
7 





















































































































































rowid ( 行 ID) name ( 商品 名 ) price ( 价格 ) 



































A 





“使 用 极 值 函数 让 每 组 只 留 下 一 个 rowid” 这 一 点 与 之 前 的 做 法 一 样 。 
不 同 的 是 ， 这 次 我 们 需要 把 要 留 下 的 集合 从 表 Products 这 个 集合 中 减 掉 。 
SQL 语句 如 下 所 示 。 















































-- 删除 重复 行 的 高 效 SQL 语句 (1) : 通过 EXCEPT 求 补 集 
DELETE FROM Products 


























WHERE rowid IN ( SELECT rowid ll 
FROM Products 
EXCEPT -- 减 去 
SELECT MAX (rowid) -- 要 留 下 的 rowid 


FROM Products 
GROUP BY name, price) ，; 











非 相 关 的 子 查询 返回 结果 是 常数 列表 “2，3”。 其 中 ， 使 用 EXCEPT 
求 补 集 的 逻辑 如 下 面 的 图 表 所 示 。 


| 



































全 部 rowid 要 留 下 的 rowid 








使 用 
明白 














非常 
下 所 示 。 














-- 删除 重复 行 的 高 效 SQL 语句 (2) : 通过 NOT IN 求 补 集 
DELETE FROM Products 






































要 删除 的 rowid 


SQL 进行 集合 运算 
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EXCEPT 后 ， 我 们 就 可 以 轻松 求 得 补 集 。 这 个 方法 想必 大 家 已 经 
了 。 此 外 ， 把 EXCEPT 改写 成 NOT IN 也 是 可 以 实现 的 。 代 码 如 


WHERE rowid NOT IN 





( SELECT MAX (rowid) 
FROM Products 
GROUP BY name, price); 





这 两 种 方法 的 性 能 优 劣 主要 取决 于 表 的 规模 ， 以 及 删除 的 行 数 与 留 下 


































































































的 行 数 之 间 的 比率 。 不 过 ， 第 二 种 方法 有 一 个 优点 ， 那 就 是 不 支持 
EXCEPT 的 数据 库 也 可 以 使 用 。 
像 这 样 实现 了 行 JD 的 数据 库 只 有 Oracle 和 PostgreSQL。 了 PostgreSQL 
里 的 相应 名 字 是 oia， 如 果 要 使 用 ， 需 要 事先 在 CREATE TABLE 的 时 候 指 
定 可 选项 WITH oIDS。 如 果 其 他 数据 库 想 要 使 用 这 些 SQL， 则 需要 在 表 
中 创建 类 似 的 具有 唯一 性 的 “id” 列 。 
呈 本 节 小 结 
本 节 ， 我 们 学 习 了 集合 运算 的 使 用 方法 。 本 节 开 头 的 序 文 里 说 过 ， 关 





于 集合 运 
解决 很 多 问题 ， 但 是 很 多 人 
以 再 思考 一 些 有 趣 的 SQL。 




















云 算 ，SQL 的 标准 化 进行 得 比较 缓慢 ， 所 以 尽管 集合 运算 可 以 用 





























来 
。 除 了 本 节 提 到 的 内 容 以 外 ， 大 家 可 











并 不 知道 


下 面 是 是 本 节 要 点 。 
1. 在 集合 运算 方面 ，SQL 的 标准 化 进行 得 比较 缓慢 ， 直 到 现在 也 是 


























实现 状况 因数 据 库 不 同 而 参 

















差 不 齐 ， 因 此 使 用 的 时 候 需 要 注 ; 








Bo 


@ 128 





第 1 章 神奇 的 SOL 





2. 如 果 集 合 运算 符 不 指定 ALL 可 选项 ， 重 复 行 会 被 排除 掉 ， 而 且 ， 这 























种 情况 下 还 会 发 生 排序 ， 所 以 性 能 方面 不 够 好 。 
3. UNION 和 INTERSECT 都 具有 窜 等 性 这 
有 震 等 性 。 


4. 标准 SQL 没有 关系 除法 的 运算 符 ， 需 要 自己 实现 。 




















| 四 






































三 要 性 质 ， 而 EXCEPT 不 具 




















5. 判断 两 个 集合 是 否 相 等 时 ， 可 以 通过 早 等 性 或 一 一 映射 两 种 方法 。 

















6. 使 用 EXCEPT 可 以 很 简单 地 求 得 补 集 。 














7 让 




















如 果 大 家 想 了 解 更 多 关于 关联 子 查 询 的 内 容 ， 请 参考 下 面 的 资料 。 





1. Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人 民 邮 电 出 版 社 ，2013 年 ) 





关于 排除 重复 行 ， 请 参考 15.1.14 节 “ 在 相同 表 内 进行 删除 ”;， 关 于 使 用 
差 集运 算 进行 关系 除法 运算 ,请 参考 27.2.6 节 “ 用 集合 操作 符 进行 除法 ”。 






































需要 注意 的 是 ，Joe Celko 在 判断 集合 是 否 为 空 集 时 使 用 了 Is NULL, 但 























按照 目前 大 多 数 数据 库 的 实现 状况 来 说 ， 当 子 查询 返 开 




















出 错 。 根据 标准 SQL，IS NULL 的 参数 允许 是 多 个 值 的 列表 ， 
里 的 写法 不 算 错 ， 但 是 目前 大 多 数 数据 库 都 还 没有 实现 这 个 功能 。 
































多 个 














值 时 





程序 


因此 该 书 


2. Joe Celko,《SQL 解 惑 (第 2 版 )》( 人 民 邮 电 出 版 社 ，2008 年 ) 
关于 寻找 相等 的 集合 ， 请 参考 “ 谜 题 27 找 出 相等 集合 ” 正文 中 提 到 的 














System R 的 故事 也 请 参考 这 一 章 。 




















A 
< 





3. C.J. Date, Re/ational Database Writings 1991-1994( Addison-Wesley， 


1995 年 ) 


Expression Transformation (Part 1 of 2) 讲解 了 UNION 和 INTERSECT 拥 



































谜 题 出 自 该 书 A Matter of Intergrity (Part 2 of3) 部 分 。 





有 需 等 性 是 多 么 地 重要 。 还 有 ， 前 面 提 到 的 关于 “寻找 相等 的 集合 ”的 


1-7 用 SQL 进行 集合 运算 





129 @ 


@ 练 习题 1-7-1 : 改进 “只 使 用 UNION 的 比较 ” 

在 “比较 表 和 表 : 检查 集合 相等 性 之 基础 篇 ”部 分 ， 我 们 学 习 了 只 使 
用 了 UNION 的 SQL 语句 。 当 时 我 们 提 到 ， 在 使 用 这 条 SQL 语句 之 前 需要 
事先 查 一 下 两 张 表 的 行 数 是 否 相 等 。 实 际 上 ， 我 们 稍微 修改 一 下 ， 就 可 以 
不 需要 判断 行 数 也 能 直接 执行 。 请 考虑 一 下 该 如 何 修改 。 








@ 练 习题 1-7-2 : 精确 关系 除法 运算 

在 “用 差 集 实 现 关系 除法 运算 ”部 分 ， 我 们 学 习 了 将 除法 还 原 成 减法 
来 运算 的 方法 。 请 将 这 条 SQL 语句 修改 一 下 ， 实 现 “精确 关系 除法 运算 ” 
(还 记得 “精确 关系 除法 运算 ”的 定义 吗 ?) 不 过 ， 这 回 我 们 要 选择 的 是 刚 
好 拥有 全 部 技术 的 员工 ， 结 果 只 有 神崎 一 人 。 
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| EXISTS 谓词 的 用 法 


> SQL 中 的 谓词 逻辑 

支撑 SQL 的 基础 理论 有 两 个 : 一 个 是 我 们 之 前 花 大 篇 幅 介 绍 过 的 集合 论 ， 另 一 个 是 作为 现代 逻辑 学 
标准 的 谓词 逻辑 。 本 节 主 要 介绍 谓词 逻辑 ， 尤 其 是 用 于 在 SQL 中 表示 量化 的 重要 谓词 BxISTSs 的 特性 ， 
这 里 将 通过 介绍 它 的 一 些 用 途 来 加 深 我 们 对 SQL 的 理解 。 





支撑 SQL 和 关系 数据 库 的 基础 理论 主要 有 两 个 :一 个 是 数学 领域 的 
合 论 ， 男 一 个 是 作为 现代 逻 辑 学 标准 体系 的 谓词 逻辑 (predicate logic)， 
准确 地 说 是 “一 阶 谓词 逻辑 ”。 本 书 到 目前 为 止 着 重 介绍 了 SQL 中 与 集合 
论 相关 的 内 容 。 本 节 换 个 角度 ， 介 绍 一 下 另 一 个 重要 内 容 一 一 谓词 逻辑 。 
本 节 将 重点 介绍 EXISTS 谓词 。EXISTS 不 仅 可 以 将 多 行 数据 作为 整 
体 来 表达 高 级 的 条 件 ， 而 且 使 用 关联 子 查 询 时 性 能 仍然 非常 好 ， 这 对 SQL 
来 说 是 不 可 或 缺 的 功能 。 但 是 引入 这 个 谓词 的 目的 是 什么 ， 它 的 机 制 又 是 
什么 ， 很 多 人 都 不 太 了 解 。 
先 说 一 下 结论 ,EXISTS 是 为 了 实现 谓词 逻辑 中 “量化 ”(quantification) 
一 强大 功能 而 被 引入 SQL 的 。 如 果 能 理解 这 个 概念 并 且 能 灵活 运 / 
EXISTS 谓词 ， 数 据 库 工 程 师 的 能 力 会 提升 许多 。 
本 节 前 半 部 分 将 简单 介绍 一 下 与 谓词 逻辑 和 EXISTSs 相关 的 理论 知识 ， 
后 半 部 分 则 介绍 一 下 实际 的 应 用 。 如 果 觉 得 边 看 例题 边 理解 更 容易 ， 也 可 
以 从 后 半 部 分 开始 阅读 ， 根 据 需要 适当 地 参考 前 半 部 分 的 内 容 。 
























































































































































什么 是 谓词 
SQL 的 保留 字 中 ， 有 很 多 都 被 归 为 谓词 一 类 。 例 如 ,“-、<、>” 等 比 
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较 谓词 ， 以 及 BETWEEN、LIKE、IN、IS NULL 等 。 在 写 SQL 语句 时 我 们 
几乎 离 不 开 这 些 谓 词 ， 那 么 到 底 什么 是 谓词 呢 ? 几乎 每 天 都 在 用 ， 但 是 突 
然 被 问 起 来 时 却 答 不 上 来 的 人 应 该 不 少 吧 。 当 然 ， 我 们 说 的 谓词 和 主语 / 
谓语 中 的 谓语 ， 以 及 英语 中 的 动词 是 不 一 样 的 。 
在 前 面 几 节 ， 我 们 多 次 用 到 了 谓词 这 个 说 法 ， 现 在 给 出 它 的 定义 。 用 
一 句 话 来 说 ， 谓 词 就 是 函数 。 当 然 ， 谓 词 与 SUM 或 AVG 这 样 的 函数 并 不 
一 样 ， 否 则 就 无 需 再 分 出 谓词 这 一 类 ， 而 是 统一 都 叫 作 函数 了 。 

实际 上 ， 谓 词 是 一 种 特殊 的 函数 ， 返 回 值 是 真 值 。 前 面 提 到 的 每 个 谓 
词 ， 返 回 值 都 是 true、false 或 者 unknown (一 般 的 谓词 逻辑 里 没有 
unknown， 但 是 SQL 采用 的 是 三 值 逻 辑 ， 因 此 具有 三 种 真 值 )。 

谓词 逻辑 提供 谓词 是 为 了 判断 命题 《可 以 理解 成 陈述 句 ) 的 真 假 。 例 
如 ,我 们 假设 存在 “x 是 男 的 ”这 样 的 谓词 ,那么 我 们 只 要 指定 x 为“ 小明” 
或 者 “小 红 ” 就 能 判断 命题 “小 明 是 男 的 ”“ 小 红 是 男 的 ”是 真 命题 还 是 
假 命题 。 在 谓词 逻辑 出 现 之 前 ,命题 多 辑 中 并 没有 像 这 样 能 够 深入 调查 命 
题 内 部 的 工具 。 谓 词 逻辑 的 出 现 具有 划时代 的 意义 ， 原 因 就 在 于 为 命题 分 
析 提 供 了 函数 式 的 方法 。 
在 关系 数据 库 里 ， 表 中 的 一 行 数据 可 以 看 作 是 一 个 命题 。 
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name( 姓名) ”sex ( 性 别 ) 










































































例如 ， 这 张 表 里 第 一 行 数据 就 可 以 认为 表示 这 样 一 个 命题 : 田中 性 别 

是 男 ， 而 且 年 龄 是 28 岁 。 表 常常 被 认为 是 行 的 集合 ， 但 从 谓词 逻辑 的 观 

ep 点 看 ， 也 可 以 认为 是 命题 的 集合 (= 陈述 句 的 集合 )。C.J. Date 曾经 这 样 
“确实 ，1969 年 Codd 在 开始 轧 ”” 调 佩 过 : 数据库 这 种 叫 法 有 点 名 不 副 实 ， 它 存储 的 与 其 说 是 数据 ， 还 不 如 
考 关系 模型 时 曾 强调 过 ,数据库 Ag 
( 和 名 字 无 关 ) 实际 上 并 非 是 数 ”说 是 命题 9。 
据 的 集合 ， 而 是 事实 ( 即 真 命题 ) 上 So er 
的 集合 pe eh 同样 ， 我 们 平时 使 用 的 WHERE 子 句 ， 其 实 也 可 以 看 成 是 由 多 个 谓词 组 
ee Teary for Fractitioners， 合 而 成 的 新 谓词 。 只 有 能 让 wHERE 子 句 的 返回 值 为 真 的 命题 ,才能 从 表 ( 命 


O'Reilly Media, 2005 ) 
题 的 集合 ) 中 查询 到 。 
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实体 的 阶层 





同样 是 谓词 ， 但 是 与 = 





























、BETWEEN 等 相 比 ，EXISTS 的 上 


日 同 的 。 概 括 来 说 ， 区 别 在 于 “谓词 的 参数 可 以 取 什 么 值 ” 











法 还 是 大 不 









































“x = y” 或 “x BETWEEN y” 等 谓词 可 以 取 的 参数 是 像 “13” 或 者 “本 
”这 样 的 单一 值 ， 我 们 称 之 为 标量 值 。 而 EXISTS 可 以 取 的 参数 究竟 是 
什么 呢 ? 从 下 面 这 条 SQL 语句 来 看 ，EXISTS 的 参数 不 像 是 单一 值 。 





















































sy 


SELECT id 
FROM Foo F 
WHERE EXISTS 
(SELECT * 
FROM Bar B 
WHERE F.id=B.id ); 




















不 过 ， 看 不 出 来 也 不 用 苦恼 。 因 为 如 果 有 人 问 suM() 函数 的 参数 是 什 
么 ， 我们 只 要 看 一 下 括号 里 的 内 容 就 知道 了 。 同 样 地 ， 看 一 下 EXISTS () 
的 括号 中 的 内 容 ， 我 们 就 能 知道 它 的 参数 是 什么 。 现 在 再 看 上 1 
语句 ， 就 能 知道 它 的 参数 是 下 






































看 的 SQL 




















再 这 样 一 条 SELECT 子 句 。 





SELECT * 
FROM Bar B 
TD 人 | 


换言之 ， 参 数 是 行 数据 的 集合 。 之 所 以 这 么 说 ， 是 因为 无 论 子 查询 中 
选择 什么 样 的 列 ， 对 于 EXISTS 来 说 都 是 一 样 的 。 在 EXISTS 的 子 查 询 里 ， 
SELECT 子 句 的 列表 可 以 有 下 面 这 三 种 写法 。 









































1. 通配符 : SELECT * 


2. 常量 : SELECT ‘这 里 的 内 容 任 意 
3. 列 名 : SELECT col 


















































但 是 , 不 管 采用 上 面 这 三 种 写法 











的 哪 一 种 , 得 到 的 结果 都 是 一 样 的 。 




















1-8 EXISTS 谓词 的 用 法 133 @ 


true 
| — alee 


unknown 


EXISTS 以 外 的 谓词 的 输入 值 是 一 行 数据 


true 
一 一 > EXISTS false 
unknown 


EXISTS 的 输入 值 是 行 数据 的 集合 








从 上 面 的 图 表 我 们 可 以 知道 , ExISTs 的 特殊 性 在 于 输入 值 的 阶 数 〈 输 
出 值 和 其 他 谓词 一 样 ， 都 是 真 值 )。 谓 词 逻 辑 中 ， 根 据 输入 值 的 阶 数 对 谓 
词 进行 分 类 。= 或 者 BETWEEEN 等 输入 值 为 一 行 的 谓词 叫 作 “一 阶 谓 词 ” 
而 像 ExTsTs 这 样 输入 值 为 行 的 集合 的 谓词 叫 作 “二 阶 谓词 ” 阶 〈order) 
是 用 来 区 分 集合 或 谓词 的 阶 数 的 概念 。 






























































ed. 


















































三 阶 谓词 = 输入 值 为 “集合 的 集合 ”的 谓词 
四 阶 谓词 = 输入 值 为 “集合 的 集合 的 集合 ”的 谓词 























我 们 可 以 像 上 面 这 样 无 限 地 扩展 阶 数 ， 但 是 SQL 里 并 不 会 出 现 三 阶 
以 上 的 情况 ， 所 以 不 用 太 在 意 。 

使 用 过 List、Hakell 等 函数 式 语言 或 者 Java 的 读者 可 能 知道 “高 阶 函 
数 ” 这 一 概念 。 它 指 的 是 不 以 一 般 的 原子 性 的 值 为 参数 ， 而 以 函数 为 参数 
的 函数 。 这 里 说 的 “ 阶 ” 和 谓词 逻辑 里 的 “ 阶 ” 是 一 个 意思 (“ 阶 ”的 概 
念 原本 就 源 于 集合 论 和 谓词 逻辑 )。EXISTS 因 接 受 的 参数 是 集合 这 样 的 一 
阶 实体 而 被 称 为 二 阶 谓词 ， 但 是 谓词 也 是 函数 的 一 种 ， 因 此 我 们 也 可 以 说 


EXISTS 是 高 阶 函 数 。 
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注 @ 

其 实 ，1969 年 Codd 在 开始 思考 
关系 模型 时 ， 曾 经 考虑 过 以 二 阶 
谓词 逻辑 作为 基础 ， 但 是 在 次 年 
的 1970 年 又 及 时 地 修改 成 了 以 
一 阶 谓词 逻辑 为 基础 。 详 情 请 参 
考 本 书 2-1 节 。 
































注 全 

Database in Depth: Relationa]l 
Theory for Practitioners, 
O’Reilly Media, 2005。 


第 1 章 神奇 的 SOL 





关系 数据 库 中 实体 的 阶层 








2 阶 ， 表 的 集合 


1 阶 ， 表 ( 行 的 集合 ) 


0 阶 : 行 [| 


在 本 节 开 头 我 们 说 过 ，SQL 中 采用 的 是 狭义 的 “一 阶 谓词 逻 辑 ”， 这 
是 因为 SQL 里 的 EXISTS 谓词 最 高 只 能 接受 一 阶 的 实体 作为 参数 。 如 果 想 
要 支持 二 阶 、 三 阶 等 更 高 阶 的 实体 ，SQL 必须 提供 相应 的 支持 。 理 论 上 这 
也 是 可 以 做 到 的 @， 只 是 目前 还 没有 实现 。 

如 果 将 来 SQL 能 支持 二 阶 谓 词 逻辑 ， 那 么 我 们 就 能 对 表 进 行 量化 。 
正如 C.J. Date 所 说 ,现在 的 SQL 只 能 进行 “是 否 存 在 包含 供应 商 S1 的 行 ?” 
这 样 的 查询 ,而 如 果 能 支持 二 阶 谓词 逻辑 ， 那么 就 能 够 表达 更 复杂 的 查询 ， 
比如 “是 否 存在 包含 供应 商 S1 的 表 ?” 这 样 一 来 ，SQL 的 查询 能 力 就 能 提 
升 一 个 等 级 。 到 那 时 SQL 作为 一 门 编程 语言 将 有 质 的 飞跃 。 















































































































































全 称 量化 和 存在 量化 

从 这 些 我 们 可 以 知道 ， 形 式 语言 没 必 要 同时 显 式 地 支持 EXISTS 和 
FORALL 两 者 。 但 是 实际 上 ， 我 们 希望 同时 支持 这 两 者 ， 因 为 有 些 问题 适合 
使 用 EXISTS 来 解决 ， 而 有 的 间 题 适合 使 用 FORALL。 例 如 ，SQL 支持 
是 会 有 一 些 查询 只 能 选择 用 EXISTS， 那 么 代 





EXISTS， 不 支持 FORALL。 于 


码 写 起 来 就 会 非常 麻烦 。@ 
—€,). Date 









































谓词 逻辑 中 有 量词 (限量 词 、 数 量词 ) 这 类 特殊 的 谓词 。 我 们 可 以 用 
它们 来 表达 一 些 这 样 的 命题 :“ 所 有 的 x 都 满足 条 件 P” 或 者 “存在 (至 少 
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一 个 ) 满足 条 件 P 的 x*”。 前 者 称 为 “全 称 量词 ” 后 者 称 为 “存在 量词 ”， 
分 别 记 余 、 习 。 这 两 个 符号 看 起 来 很 奇怪 。 其 实 ， 全 称 量 词 的 符号 其 实 


是 将 字母 A 上 下 颠 倒 而 形成 的 ， 

















存在 量词 则 是 将 字母 已 左右 颠倒 而 形成 的 。 





“对 于 所 有 的 2 ”的 英语 是 “for Allx，.….”， 而 “存在 满足 …… 的 x” 





的 英语 是 “there Exists x that...” 











”， 这 就 是 这 两 个 符号 的 由 来 。 














也 许 大 家 已 经 明白 了 ，SQL 中 的 ExTsTs 谓词 实现 了 谓词 逻辑 中 的 存 








在 量词 。 然 而 遗憾 的 是 ， 对 于 与 本 节 核心 内 容 有 关 的 另 一 个 全 称 量词 ， 

















SQL 却 并 没有 了 予以 实现 。C.J. Date 在 自己 的 书 里 写 了 FORALL 谓词 ， 但 实 











际 上 SQL 里 并 没有 这 个 实现 。 


但 是 没有 全 称 量词 并 不 算是 SQL 的 致命 缺陷 。 因 为 全 称 量词 和 存在 
量词 只 要 定义 了 一 个 ， 另 一 个 就 可 以 被 推导 出 来 。 具 体 可 以 参考 下 面 这 个 








卫 
















































































等 价 改写 的 规则 《〈 德 ， 摩根 定律 )。 


VEPY 三 汪 习 天 下 
(所 有 的 x 都 满足 条 件 P 三 
3 xPx=7 VvV x Px 

















不 存在 不 满足 条 件 P 的 x) 





(存在 x 满足 条 件 P = 并 非 所 有 的 x 都 不 满足 条 件 P) 


























寻 此 在 SQL 中 , 为 了 表达 全 称 量化 , 需要 将 “所 有 的 行 都 满足 条 件 P” 











这 样 的 命题 转换 成 “不 存在 不 满足 条 件 P 的 行 ” 就 像 CJ. Date 所 说 ， 虽 


























然 SQL 里 有 全 称 量词 会 很 方便 
没有 办 法 了 。 














到 此 为 止 ， 本 节 简 要 介绍 了 SQL 基础 理论 中 的 谓词 逻辑 ， 特 别 
化 相关 的 理论 知识 。 接 下 来 的 “实践 篇 ”将 通过 有 具体 的 例题 介绍 一 下 量化 




















在 SQL 中 是 如 何 使 用 的 。 





”实践 篇 


， 但 是 既然 SQL 并 没有 实现 它 ， 我 们 也 就 
































员 
册 



































门卫 


查询 表 中 “不 ”存在 的 数据 
一 般 来 说 ， 我 们 从 数据 库 











查询 数据 时 ， 都 是 从 表 里 存 在 的 数据 中 选 











出 满足 某 些 条 件 的 数据 。 但 是 在 有 些 情况 下 ,我 们 不 得 不 从 表 中 查找 出 “不 
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存在 的 数据 ”。 这 上 听 起 来 可 能 很 奇怪 ， 但 是 这 种 需求 并 不 算 少 。 例 如 下 艳 
这 样 的 情况 ， 大 家 是 不 是 遇 到 过 呢 ? 












































Meetings 


meeting (会议 ) person ( 出 席 者 ) 







































































显然 ， 从 这 张 表 中 求 出 “参加 了 某 次 会 议 的 人 ”是 很 容易 的 。 但 是 ， 
如 果 反 过 来 求 “ 没 有 参加 某 次 会 议 的 人 ” 该 怎么 做 呢 ? 例如 ， 伊 藤 参 加 
了 第 1 次 会 议和 第 2 次 会 议 ， 但 是 没有 参加 第 3 次 会 议 ， 坂 东 没 有 参加 第 
2 次 会 议 。 也 就 是 说 ， 目 标 结果 如 下 所 示 ， 是 各 次 会 议 缺 席 者 的 列表 。 




































































mestening person 
第 1 次 三 

第 2 次 坂 东 
第 2 次 水 岛 
第 3 次 P 茧 











我 们 并 不 是 要 根据 存在 的 数据 查询 “满足 这 样 那样 条 件 ” 的 数据 ， 而 
是 要 查询 “数据 是 否 存 在 ” 从 阶层 上 来 说 ， 这 是 更 高 一 阶 的 问题 ， 即 所 
谓 的 “二 阶 查询 ”。 这 种 时 候 正 是 EXISTSs 谓词 大 显 身 手 的 好 时 机 。 思 路 是 
先 假设 所 有 人 都 参加 了 全 部 会 议 ， 并 以 此 生成 一 个 集合 ， 然 后 从 中 减 去 实 
际 参加 会 议 的 人 。 这 样 就 能 得 到 缺席 会 议 的 人 。 

所 有 人 都 参加 了 全 部 会 议 的 集合 可 以 通过 下 面 这 样 的 交叉 连接 来 
求 得 。 

























































































SELECT DISTINCT M1.meeting, M2.person 
FROM Meetings M1 CROSS JOIN Meetings M2 
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所 有 人 都 参加 了 全 部 会 议 时 
ee ( 会议) ”person ( 出 席 者 ) 














































































































结果 是 3 次 X4 人 ,一共 12 行 数 据 。 然 后 我 们 从 这 张 表 中 减 掉 实 际 






































-- 求 出 缺席 者 的 SQL 语句 (1) : 存在 量化 的 应 
SEECTEDESTINCIIMIRmEeEino M2 Derson 
FROM Meetings M1 CROSS JOIN Meetings M2 
WHERE NOT EXISTS 
(SELECT * 
FROM Meetings M3 
WHERE M1.meeting = M3.meeting 
AND M2.person = M3.person); 


























如 上 所 示 ， 我 们 的 需求 被 直接 翻译 成 了 SQL 语句 ， 意 思 很 好 型 
道 例题 还 可 以 用 集合 论 的 方法 来 解答 ， 即 像 下 面 这 样 使 用 差 集运 算 。 





解 。 
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---- 求 出 缺席 者 的 SQL 语句 (2) : 使 用 差 集运 算 
SELECT M1 .meeting, 0 

FROM Meetings M1, Meetings M2 
EXCEPT 
SELeermmeer mo pensonm 

FROM Meetings; 


























过 以 上 两 条 SQL 语句 的 比较 我 们 可 以 明白 ，NoT EXISTS 直接 具备 
ae 
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全 称 量化 (1) 


接 下 来 我 们 练习 一 下 如 何 使 
EXISTS 的 用 法 中 很 





希望 大 家 能 去 
































: 习惯 “肯定 令 双重 否定 ”之 间 的 转换 


























| EXISTS 谓词 来 表达 全 称 量化 ， 这 是 



































有 代表 性 的 一 个 





























的 行 一 行 都 不 存在 ”的 转换 。 





























这 里 使 用 














TestScores 


student id (学生 ID ) 


subject ( 教科 ) 




















] 法 。 





通过 这 一 部 分 内 容 的 学 习 ， 
惯 从 全 称 量化 “所 有 的 行 都 XX” 到 其 双重 否定 “不 XX 

















下 面 这 样 一 张 存 储 了 学 生 考试 成 绩 的 表 为 例 进行 讲解 。 





score ( 点 数 ) 












































我 们 先 来 看 
以 上 的 学 生 ” 答案 是 学 号 
学 生 语文 和 社会 两 科目 





条 件 



































个 简单 的 问题 : 请 查询 出 “所 有 科目 分 数 都 在 50 分 
分 别 为 100、200、400 的 3 人 。 学 号 为 300 的 








都 在 50 分 以 上 ， 但 是 数学 考 了 40 分 ， 所 以 不 符合 











解法 是 ， 将 查询 条 件 “ 所 有 科目 分 数 都 在 50 分 以 上 ”转换 成 它 的 双 
































个 科 

















重 否 定 “ 没 有 


后 的 命题 。 











SELECT DISTINCT student id 

FROM TestScores TSI 
WHERE NOT EXISTS 
(SELECT * 

FROM TestScores TS32 

WHERE TS2.student id = TS1.student id 


AND TS2.score < 50); 





























分 数 不 满 50 分 ” 然后 用 NoT EXISTS 来 表示 转换 
-- 不 存在 满足 以 下 条 件 的 行 











-- 分 数 不 满 50 分 的 科 
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图 执行 结果 


SUoqentegaiq 





怎么 样 ， 是 不 是 很 简单 呢 ? 
接 下 来 我 们 把 条 件 改 得 复杂 一 些 再 试 试 。 请 思考 一 下 如 何 查询 出 满足 
下 列 条 件 的 学 生 。 



























































1. 数学 的 分 数 在 80 分 以 上 。 
2. 语文 的 分 数 在 50 分 以 上 。 





结果 应 该 是 学 号 分 别 为 100、200、400 的 学 生 。 这 里 ， 学 号 为 400 的 
学 生 没 有 语文 分 数 的 数据 ， 但 是 也 需要 包含 在 结果 里 。 像 这 样 的 需求 ， 我 
们 在 实际 业务 中 应 该 会 经 常 遇 到 ， 但 是 乍 一 看 可 能 会 觉得 不 太 像 是 全 称 量 
化 的 条 件 。 

如 果 改 成 下 面 这 样 的 说 法 ， 可 能 我 们 一 下 子 就 能 明白 它 是 全 称 量化 的 


命题 了 。 
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“ 某 个 学 生 的 所 有 行 数据 中 ， 如 果 科 目 是 数学 ， 则 分 数 在 80 分 以 上 ; 
如 果 科 目 是 语文 ， 则 分 数 在 50 分 以 上 。” 











没 错 ， 这 其 实 是 针对 同一 个 集合 内 的 行 数据 进行 了 条 件 分 支 后 的 全 称 
量化 。SQL 语句 本 身 是 支持 根据 不 同行 表示 条 件 分 支 的 ， 例 如 可 以 通过 下 
面 这 个 具有 两 个 条 件 分 支 的 CASE 表达 式 来 表示 条 件 分 文 。 





























中 





























' 数 学 ' AND score >= 80 THEN 1 
! 语 文 ' AND score >= 50 THEN 1 


CASE WHEN subject 
WHEN subject 
ELSE 0 END 


条 SQL 语句 表达 的 正 是 1-4 节 介 绍 过 的 “特征 函数 ” 对 于 满足 条 
本 该 SQL 语句 会 返回 1， ee 0。 然 后 ， 我 们 只 需要 像 下 面 这 
样 把 语句 里 的 条 件 反 过 来 就 可 以 了 。 
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SELECT DISTINCT student id 
EROM TestSeonesoTst 
WHERE subject IN (' 数 学 '，' 语 文 ') 
AND NOT EXISTS 
(SELECT * 
EROMITesSESCorneseTs> 
WHERE TS2.student id = TS1.student id 





AND 1 = CASE WHEN subject = ' 数 学 ' AND score < 80 THEN 1 
WHEN subject = ' 语 文 ' AND score < 50 THEN 1 
ELSE 0 END); 























这 里 解释 一 下 这 段 代码 。 首 先 ， 数 学 和 语文 之 外 的 科目 不 在 我 们 考虑 
目 之 内 ， 所 以 通过 IN 条 件 进行 一 下 过 滤 。 然 后 , 通过 子 查 询 来 描述 “ 数 
学 80 分 以 上 ， 语 文 50 分 以 上 ”这 个 条 件 。 

接 下 来 ,我 们 思考 一 下 如 何 排除 掉 没 有 语文 分 数 的 学 号 为 400 的 学 生 。 
这 里 ， 学 生 必须 两 门 科 目 都 有 分 数 才 行 ， 所 以 我 们 可 以 加 上 用 于 判断 行 数 
的 HAVING 子 句 来 实现 。 
































旗 
豆 
























































SELECT student id 
EROMITestSeores TS 
WHERE subject IN (' 数 学 '，' 语 文 ') 
AND NOT EXISTS 
(SELECT * 
EROMITeStSCoresnns: 
WHERE TS2.student id = TS1.student id 




















AND 1 = CASE WHEN subject = ' 数 学 ' AND score < 80 THEN 1 
WHEN subject =' 语 文 ' AND score < 50 THEN 1 
ELSE 0 END) 
GROUP BY student id 
HAVING COUNT(*) = 2; ”-- 必须 两 门 科目 都 有 分 数 
student id 
100 
200 














um 


像 上 面 这 样 简单 地 修改 一 下 就 可 以 了 。 请 注意 ， 这 里 已 经 以 学 号 为 列 
进行 了 聚合 ， 所 以 SELECT 子 句 里 的 DISTINCT 就 不 需要 了 。 




















全 称 量化 (2) : 集合 VS 谓词 哪个 更 强大 ? 
下 面 继续 练习 全 称 量化 。EXISTS 和 HAVING 有 一 个 地 方 很 像 ， 即 都 
是 以 集合 而 不 是 个 体 为 单位 来 操作 数据 。 实 际 上 ， 两 者 在 很 多 情况 下 都 是 
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可 以 互 换 的 ， 用 其 中 一 个 写 出 的 查询 语句 ， 大 多 时 候 也 可 以 用 另 一 个 来 写 。 
接 下 来 我 们 通过 比较 来 了 解 一 下 它们 各 自 的 优点 和 缺点 。 

Eg 假设 存在 下 面 这 样 的 项 目 工程 管理 表 ®。 

这 个 问题 改编 自 Joe Celko 的 著 


作 《SQL 解 惑 ( 第 2 版 )》 的 “ 谜 . 
题 11 工作 顺序 "。 Projects 








了 





















































project id( 项 目 ID) ”step_nbr (工程 编号 ) “status ( 等 待 ) 









































| 一 | 口 | 由 | 六 | 一 | 口 | 一 | 口上 | 有 所 | 一 | 口 




















这 张 表 的 主键 是 “项 目 ID, 工程 编号 ” 工程 编号 从 0 开始 ， 我 们 不 
妨 认 为 0 号 是 需求 分 析 ，1 号 是 基本 设计 …… 虽 然 这 张 表 中 的 工程 编号 最 
大 只 到 3， 但 是 有 可 能 也 会 有 4 以 后 的 编号 。 已 经 完成 的 工程 其 状态 列 的 
值 是 “完成 ” 等 待 上 一 个 工程 完成 的 工程 其 状态 列 的 值 是 “等 待 ” 

这 里 的 问题 是 ， 从 这 张 表 中 查询 出 哪些 项 目 已 经 完成 到 了 工程 1。 可 
以 明显 地 看 出 ， 只 完成 到 工程 0 的 项 目 AA100 以 及 还 没有 开始 的 项 目 
B200 不 符合 条 件 ， 而 项 目 CS300 符合 条 件 。 项 目 DY400 已 经 完成 到 了 工 
程 2， 是 否 符 合 条 件 有 点 微妙 ， 我 们 先 按 它 不 符合 条 件 来 实现 。 
对 于 这 个 问题 ，Joe Celko 曾经 借助 HAVING 子 句 用 面向 集合 的 方法 进 
行 过 解答 ， 代 码 如 下 所 示 。 





































































































































































































-- 查询 完成 到 了 工程 1 的 项 目 : 
SELECT project id 
FROM Projects 
GROURERYEDEOJESEETO 
HAVING COUNT(*) = SUM(CASE WHEN step nbr <= 1 AND status = ' 完 成 ' THEN 1 
WHEN step nbr > 1 AND status = ' 等 待 ' THEN 1 
ELSE 0 END); 


句 集合 的 解法 
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图 执行 结果 
EeecEEnd 
CS300 
寻 为 这 里 的 重点 不 是 讲解 HAVING 子 句 ， 所 以 就 不 通过 维 恩 图 去 分 析 












































了 。 下 面 简单 地 解释 一 下 这 段 代 码 : 针对 每 个 项 目 ， 将 工程 编号 为 1 以 下 
且 状 态 为 “完成 ”的 行 数 ， 和 工程 编号 大 于 1 且 状 态 为 “等 待 ”的 行 数 加 
在 一 起 ， 如 果 和 等 于 该 项 目 数据 的 总 行 数 ， 则 该 项 目 符合 查询 条 件 。 

这 道 例 题 用 谓词 逻辑 该 如 何 解决 呢 ? 其 实 这 道 例 题 也 能 看 作 是 全 称 
化 的 一 个 特例 。 与 上 一 道 例题 相 比 ， 这 道 例 题 稍微 复杂 一 点 ， 但 是 思路 是 
一 样 的 。 请 把 查询 条 件 看 作 是 下 面 这 样 的 全 称 量 化 命题 。 

































































闲 





Rel 
























































“ 某 个 项 目的 所 有 行 数据 中 ， 如 果 工 程 编号 是 1 以 下 ， 则 该 工程 已 完 
成 ; 如 果 工 程 编号 比 1 大 ， 则 该 工程 还 在 等 待 。” 











这 个 条 件 仍 然 可 以 用 cAsE 表达 式 来 描述 。 








step_ status = CASE WHEN step nbr <= 1 
THEN ' 完成 ' 
ELSE ' 等 待 ' END 














用 这 个 条 件 的 否定 形式 ,因此 代码 如 下 所 示 。 

















最 终 的 SQL 语句 会 采用 上 








-- 查询 完成 到 了 工程 1 的 项 目 : 谓词 逻辑 的 解法 
SELECT * 
FROM Projects P1 
WHERE NOT EXISTS 
(SELECT status 
FROM Projects P2 















































WHERE P1.project id = P2. project id -- 以 项 目 为 单位 进行 条 件 判断 
AND status <> CASE WHEN step nbr <= 1 ”-- 使 用 双重 否定 来 表达 全 称 量化 命题 
THEN ' 完成 





ELSE ' 等待 ' END) ; 


图 执行 结果 
Proneeend SEEepEmiom status 
CS300 0 完 
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CS300 加 二 
CS300 3 等 待 





TT 





铀 








虽然 两 者 都 能 表达 全 称 量化 ， 但 是 与 HAVING 相 比 ， 使 用 了 双重 和 否 
的 NoT EXISTS 代码 看 起 来 不 是 那么 容易 理解 ， 这 是 它 的 缺点 。 但 是 这 
种 写法 也 有 优点 。 第 一 个 优点 是 性 能 好 。 只 要 有 一 行 满足 条 件 ， 碍 询 就 
会 终止 ， 不 一 定 需 要 查询 所 有 行 的 数据 。 而 且 还 能 通过 连接 条 件 使 用 
“project_ id” 列 的 索引 ， 这 样 查询 起 来 会 更 快 。 第 二 个 优点 是 结果 里 能 包 
含 的 信息 量 更 大 。 如 果 使 用 HAVING， 结 果 会 被 聚合 ， 我 们 只 能 获取 到 项 
目 ID， 而 如 果 使 用 EXISTS， 则 能 把 集合 里 的 元 素 整 体 都 获取 到 。 





























六 










































































































































































对 列 进行 量 化 : 查询 全 是 1 的 行 

不 好 的 表 在 设计 上 一 般 都 会 存在 一 些 典型 的 问题 。 例 如 没有 主键 且 允 
许 重 复 的 行 存在 ， 或 者 是 完全 忽略 掉 列 应 该 作为 “属性 ”来 定义 的 这 个 习 
惯 ， 让 某 一 列 拥 有 了 多 个 含义 。 还 有 一 种 是 像 下 面 这 样 只 是 单纯 地 存储 
数组 的 表 ， 对 于 这 样 的 表 ， 数 据 库 工程 师 看 到 就 会 忍 不 住 叹 一 口气 :“ 啊 ， 
怎么 又 来 了 !” 
























































UV 



































ArrayTbl 


key coll col2 col3 col4 col5 col6 Col7 col8 col9 col10 


















































说 这 张 表 的 设计 不 好 的 原因 是 ， 数 组 中 的 元 素 可 以 自由 地 增加 或 者 减 
少 ,而 表 中 的 列 却 不 能 这 样 。 即 便 只 是 增加 或 减少 1 列 ,都 非常 麻烦 。 相反 ， 
DD 行 的 增加 或 者 减少 却 对 系统 几乎 没有 什么 影响 8。 因此 在 设计 表 时 有 一 条 
































































































































后 。 原则 让 列 具有 一 定 的 扩展 性 。 数 组 中 的 元 素 不 应 该 对 应 表 中 的 列 ， 而 是 
的 问题 。 应 该 对 应 行 。 

本 来 ， 如 果 理 解 表 是 对 现实 世界 中 实体 (entity) 的 抽象 这 一 关系 模 

型 理论 ， 很 自然 就 会 明白 这 种 思考 方式 。 如 果 只 是 生成 上 面 这 样 的 表 ， 那 






























































么 使 用 SQL-99 中 引入 的 数组 类 型 也 不 失 为 一 个 办 法 。 
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注 @ 
此 段 代码 在 PostgreSQL 中 运行 时 
会 报错 。 要 想 成 功 运行 ， 需 将 代 
码 最 后 一 行 括号 内 的 字符 改 为 


"values (col1), (col12), (co13), 








(col4), (col5), (co16), (co17), 
(co18), (co19), (co110)"o 


一 一 译 者 注 
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好 了 ， 就 算 我 们 盯 着 有 问题 的 表 发 牢骚 ， 它 也 不 会 变 得 好 起 来 。 如 果 
不 能 改变 表 的 结构 ， 那 么 接受 这 一 点 并 继续 想 其 他 办 法 才 是 有 意义 的 。 
在 使 用 这 种 模拟 数组 的 表 时 遇 到 的 需求 一 般 都 是 下 面 这 两 种 形式 。 












































NS 





1. 查询 “都 是 1” 的 行 。 
2. 查询 “至 少 有 一 个 9” 的 行 。 























EXISTS 谓词 主要 用 于 进行 “ 行 方向 ”的 量化 ， 而 对 于 这 个 问题 ， 我 
们 需要 进行 “ 列 方向 ”的 量化 。 虽 然 这 里 不 能 用 
以 像 下 面 这 样 解答 。 





























EXISTS， 但 是 实际 上 可 




















--“ 列 方向 ”的 全 称 量化 : 不 优雅 的 解答 
SELECT * 

FROM ArrayTbl 
WHERENGOL 

AND aol = 





ANBEeoMlo 二 全， 











这 种 解法 不 是 很 优雅 (但 是 也 没有 错 )， 还 可 以 改进 。 只 有 10 列 的 话 
还 可 以 忍受 ， 如 果 增 加 到 50 列 、100 列 ， 那 么 这 种 SQL 语句 就 会 变 得 太 
长 而 让 人 难以 阅读 。 但 是 不 用 担心 ，SQL 语言 其 实 还 准备 了 一 个 谓词 ， 帮 
助 我 们 进行 “ 列 方向 ”的 量化 。 


















































--“ 列 方向 ”的 全 称 量化 ; 优雅 的 解答 @ 
SELECT * 
FROM ArrayTbl 
WHEREe Tl A eol eol eol eo ol eol ool oon eol oo 





Eeeolmeol2eols eolcolsmeolecol ecoleol el 
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这 条 SQL 语句 将 “coll ~ col10 的 全 部 列 都 是 1” 这 个 全 称 量化 命题 
直接 翻译 成 了 SQL 语句 ， 既 简洁 又 很 好 理解 。 
反 过 来 ， 如 果 想 表达 “至 少 有 一 个 9” 这 样 的 存在 量化 命题 ， 可 以 使 
] ALL 的 反 义 谓词 ANY。 
























































pe 


注 @ 


在 PostgreSQL 中 运行 时 ， 请 参考 





P144 脚注 @。 一 一 译 者 注 


注 @@ 


在 PostgreSQL 中 运行 时 ， 请 参考 
P144 脚注 @。 一 一 译 者 注 





注 @ 








如 果 不 明白 ， 请 返 




















一 下 。 


1 污 节 复习 
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-- 列 方向 的 存在 量化 (1)® 
SELECT * 
FROM ArrayTbl 


WHEREeOR = ANY (col col2 eol col col colon eol ole Eco ES 


key econeol2 eol3 eoluaecols eol6e eol/ 9 ecole eo eo 


D 9 
E 3 1 9 3 





或 者 也 可 以 使 用 IN 谓词 代替 ANY。 


-- 列 方向 的 存在 量化 (2) 
SELECT * 
FROM ArrayTbl 


WHEREDOP TN (eo eol eole eo eol eo ol eol eolon eo 











Tk 





我 们 一 般 都 像 coll IN (1，2，3) 这 样 来 使 用 IN 谓词 , 左边 是 列 名 ， 
边 是 值 的 列表 。 可 能 有 人 不 太 习 惯 上 面 这 种 左右 颠倒 了 的 写法 ， 但 是 其 
实 这 种 写法 也 是 被 允许 的 。 

但 是 ， 如 果 左 边 不 是 具体 值 而 是 NULL， 这 种 写法 就 不 行 了 。 













































































-- 查询 全 是 NULL 的 行 : 错误 的 解法 @ 
SELECT * 
FROM ArrayTbl 


WHEREINUNREEEAO (ecolecolo col ool4 SEOL5 cool coly cole con econo 


7 





























不 管 表 里 的 数据 是 什么 样 的 ， 这 条 SQL 语句 的 查询 结果 都 是 空 。 这 
是 因为 ，ALL 谓词 会 被 解释 成 coll = NULL AND col2 = NULL AND …… 


col10 = NULLS。 这 种 情况 下 ， 我 们 需要 使 用 coALESCE 函数 。 






































-- 查询 全 是 NULL 的 行 : 正确 的 解法 
SELECT * 

FROM ArrayTb 
WHERE CO 区 








ileolil ool eol ecole ol Col eo ol ol ol rs 


keyeomear eo co eol eo esol eo eo 


A 





这 样 ,“ 列 方向 ”的 量化 也 就 不 足 为 惧 了 。 
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从 集合 论 的 角度 来 看 ,SQL 具备 的 能 力 配 得 上 它 面 向 集合 语言 的 称号 。 
而 从 谓词 逻辑 的 角度 来 看 ， 我 们 又 能 发 现 它 作 为 一 种 函数 式 语言 的 特点 。 
在 函数 式 语言 中 ， 高 阶 函 数 发 挥 着 很 大 的 作用 。 同 样 ， 在 SQL 中 ， 
EXISTS 谓词 也 是 很 重要 的 。 如 果 能 灵活 运用 EXISTS， 那 么 可 以 说 就 突破 
了 中 级 水 平 关卡 中 的 一 个 。 下 一 节 准 备 了 很 多 会 用 到 EXISTs 的 例题 ， 到 
时 请 结合 本 节 学 习 到 的 基础 知识 挑战 一 下 。 





































































































二 -< 




















下 面 是 本 节 要 点 。 

1. SQL 中 的 谓词 指 的 是 返回 真 值 的 函数 。 

2. EXISTS 与 其 他 谓词 不 同 ， 接 受 的 参数 是 集合 。 

. 因此 EXISTSs 可 以 看 成 是 一 种 高 阶 函 数 。 

4. SQL 中 没有 与 全 称 量 词 相当 的 谓词 ， 可 以 使 用 NoT BEXISTS 代 
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如 果 大 家 想 了 解 更 多 关于 EXISTs 谓词 的 内 容 ， 请 参考 下 面 的 资料 。 


























1. Joe Celko, 《SQL 解 惑 (第 2 版 )》( 人 民 邮 电 出 版 社 ，2008 年 ) 

该 书 收 录 了 很 多 关于 EXISTsS 和 NOT EXISTS 的 应 用 例题 。 例 如 ， 关 于 
EXISTS 的 标准 用 法 ， 请 参考 “ 谜 题 18 广告 信件 ”; 关于 使 用 NOT EXISTS 
表达 全 称 量化 ,请 参考 “ 谜 题 20 测验 结果 ”和 “ 谜 题 21 飞机 与 飞行 员 ”; 
关于 BXISTS 在 差 集运 算 中 的 应 用 ， 请 参考 “ 谜 题 57 间隔 一 一 版 本 1 ”。 
2. C.J. Date,《 深 度 探索 关系 数据 库 : 实践 者 的 关系 理论 》( 电子 工业 出 版 







































































社 ，2007 年 ) 

关于 SQL 中 量词 的 内 容 参考 该 书 附录 A.5。 
3, 户 田山 和 久 ,《 逻 辑 学 的 创立 》( 名 古 屋 大 学 出 版 会 ， 2000 年 ) 6 
原 书 名 为 『 窒 理学 左 《 召 」， 尚 ee 、 a A ee sae Sd Es 
无 中 文 版 。 一 译 者 注 关于 谓词 逻辑 的 量词 ， 请 参考 第 $ 章 “ 扩 展 逻 辑 学 的 对 象 语 言 ” 

















而 | 练习 题 





@ 练 习题 1-8-1 : 数组 表 一 一 行 结构 表 的 情况 
在 “对 列 进行 量化 ， 查询 全 是 1 的 行 ” 部 分 ， 我们 讨论 了 对 模拟 数组 
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的 表 按 “ 列 方向 ”量化 的 方法 。 接 下 来 我 们 将 正文 中 的 表 改 成 行 结构 的 表 ， 




















ArrayTbl2 






























































一 个 实体 对 应 10 行 数据 ,所 以 


B、C 的 元 素 和 正文 中 是 一 样 的 。key 为 A 的 行 val 全 都 是 NULL，key 为 


























并 通过 这 张 表 来 练习 一 下 。“i” 列 表示 数组 的 下 标 ,因此 主键 是 “key，i”。 




















上 面 的 表 省 略 了 一 部 分 以 方便 显示 。A、 




















B 的 行 中 只 
部 都 是 1。 





有 i=1 的 行 val 是 3， 其 他 的 都 是 NULL，key 为 C 的 行 val 全 














雪上 











俩 心气 





我 们 要 按 “ 行 方向 ”进行 全 称 量 


下 如 何 从 这 张 表 中 选 

















出 val 全 是 1 的 key。 答 案 是 C。 这 次 ， 
生化， 所 以 使 用 EXISTSs 谓词 。 严 格 









































来 说 ， 这 个 问题 还 是 相当 复杂 的 ， 如 果 能 注意 到 问题 在 哪里 ， 那 你 就 是 高 


级 水 平 了 。 
在 使 
很 多 种 解法 









































EXITSTS 解答 之 后 ， 请 所 
， 非 常 有 趣 。 

















了 试 试看 有 没有 别 的 解法 。 这 个 问题 有 
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@ 练 习题 1-8-2 : 使 用 ALL 谓词 表达 全 称 量化 
全 称 量化 除了 可 以 用 NOT EXISTS 表达 ， 也 可 以 用 ALL 谓词 。 如 果 使 


















































用 ALL 谓词 ， 那 么 不 借助 双重 否定 也 可 以 ， 所 以 写 出 来 的 代码 会 更 简洁 。 
请 用 ALL 谓词 改写 “全 称 量化 (2) : 集合 那个 更 强大 ?” 部 分 
的 SQL 语句 。 


@ 练 习题 1-8-3 : 求 质 数 
最 后 再 练习 一 个 有 趣 的 数学 谜 题 。 质 数 是 自然 数 的 一 种 ， 我 们 在 学 校 
里 都 学 过 。 它 的 定义 如 下 。 




























































































除了 1 和 它 自身 之 外 不 存在 正 约 数 ( 也 就 是 说 ， 除 了 1 和 它 自身 之 
外 不 能 被 任何 自然 数 除 尽 ) 且 大 于 1 的 自然 数 














虽然 质数 的 定义 很 简单 ， 但 是 由 于 它 有 很 多 有 趣 的 性 质 ， 所 以 长 期 以 
来 都 吸引 着 很 多 人 来 研究 。 

那么 请 用 SQL 求 一 下 质数 。 因 为 质数 有 无 限 多 个 ， 所 以 这 里 把 范围 
限定 在 100 以 内 。 我 们 先 准备 一 张 存储 了 1 一 100 的 所 有 自然 数 的 表 
Numbers 〈 这 张 表 的 简单 生成 方法 将 在 下 一 节 介 绍 )。 




































































Numbers 






































如 果 把 100 以 内 的 质数 从 小 到 大 排列 出 来 ， 那 么 就 是 下 面 这 些 。 请 用 
SQL 求 出 它们 。 











2, 3, 5， 7, 11, 13; 17, ”83 89, 97 
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| 用 SQL 处 理 数列 





忆 灵 活 使 用 谓词 逻辑 

SQL 语言 在 处 理 数据 时 默认 地 都 不 考虑 顺序 。 因 此 ， 如 果 遇 到 了 需要 考虑 数据 顺序 的 情况 ， 处 理 方 
法 与 面向 过 程 语言 及 文件 系统 的 处 理 方 法 很 不 一 样 。 本 节 将 以 数列 为 例 介 绍 一 下 SQL 的 处 理 方法 ， 并 且 
挖掘 出 隐藏 在 背后 的 基本 原理 。 





关系 模型 的 数据 结构 里 ， 并 没有 “顺序 ”这 一 概念 。 因 此 ， 基 于 它 实 
现 的 关系 数据 库 中 的 表 和 视图 的 行 和 列 也 必然 没有 顺序 。 同 样 地 ， 处 理 有 
序 集合 也 并 非 SQL 的 直接 用 途 。 
忆 此 ，SQL 处 理 有 序 集合 的 方法 ， 与 原本 就 以 处 理 顺 序 为 目的 的 面向 
过 程 语言 及 文件 系统 的 处 理 方法 在 性 质 上 是 不 同 的 。 尽 管 性 质 不 同 ， 但 其 
背后 都 有 坚实 的 理论 基础 。 用 一 句 话 概括 就 是 ， 集 合 和 谓词 一 特别 是 前 
一 节 介绍 过 的 特殊 谓词 “量词 ”(quantifier) 的 使 用 方法 是 关键 。 

本 节 将 介绍 使 用 SQL 处 理 数列 或 日 期 等 有 序数 据 的 方法 。 我 们 不 只 
会 列举 出 解决 问题 的 Tips， 还 会 尽 可 能 地 挖掘 出 各 个 解法 背后 共同 的 基本 
原理 ， 从 而 整理 出 能 够 用 来 解决 新 问题 的 一 般 性 的 方法 。 
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硕 生成 连续 编号 
我 们 来 思考 一 下 如 何 使 用 SQL 生成 连续 编号 。 目 前 很 多 数据 库 实现 
都 包含 了 序列 对 象 “Sequence object)， 如 果 要 按照 顺序 一 个 一 个 地 获取 连 
续 编 号 ， 可 以 使 用 这 个 方法 。 但 是 ， 如 何 只 用 一 条 SQL 就 能 生成 任意 长 
的 连续 编号 序列 昵 ? 例如 生成 0 ~ 99 这 100 个 连续 编号 。 有 一 些 依赖 数 
据 库 实 现 的 方法 ， 比 如 CONNECT BY (Oracle)、WITH 子 句 (DB2、SQL 
Server)， 但 是 这 里 要 求 必须 使 用 不 依赖 数据 库 实现 的 方法 来 实现 。 
在 思考 这 道 例 题 之 前 ， 请 先 思 考 下 面 这 样 一 道 谜 题 。 
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谜 题 : 00 ~ 99 的 100 个 数 中 ，0, 1, 2, …, 9 这 10 个 数字 分 别 出 现 
了 多 少 次 ? 























对 于 只 有 一 位 的 数字 ， 我 们 在 前 面 加 上 0， 比 如 01、07。 请 不 要 使 用 
纸 笔 ， 只 在 脑海 中 思考 一 下 。 开 始 吧 。 

算出 来 了 吗 ? 正确 答案 是 ， 每 个 数字 都 出 现 了 20 次 。 例 如 ， 我 们 数 
一 下 出 现在 十 位 和 个 位 上 的 数字 1 一 共有 多 少 个 。 我 们 会 发 现 ， 十 位 上 的 
数字 1 有 10 个， 个 位 上 的 数字 1 也 有 10 个 。11 的 十 位 和 个 位 都 是 1， 但 
是 11 本 来 就 包括 两 个 1， 所 以 数字 1 并 没有 被 重复 计数 。 




























































































图 00 ~ 99 的 数 中 ， 数 字 0 ~ 9 各 出 现 了 20 次 

































































通过 这 个 谜 题 想 让 大 家 明白 的 是 ， 如 果 把 数 看 成 字符 串 ， 其 实 它 就 是 
各 个 数位 上 的 数字 组 成 的 集合 。 谜 题 我 们 就 分 析 到 这 里 。 

接 下 来 回 到 正题 。 首 先 我 们 生成 一 张 存 储 了 各 个 数位 上 数字 的 表 “ 数 
字 表 ”。 这 张 表 只 有 10 行 ， 我 们 只 用 来 读 取 数 据 。 我 们 都 知道 ， 无 论 多 大 
的 数 ， 都 可 以 由 这 张 表 中 的 10 个 数字 组 合 而 成 。 























































































































1-9 SQL 处 理 数 列 





151 @ 
































这 样 ， 我 们 就 可 以 通过 对 两 个 Digits 集合 求 笛 卡 儿 积 而 得 出 0 一 99 
的 数字 。 


-- 求 连续 编号 (1) : 求 0~99 的 数 

SELECT D1.digit + (D2.digit * 10) RS seq 
FROM Digits D1 CROSS JOIN Digits D2 
ORDER BY seq; 





图 执行 结果 


seq 


98 
SS 











这 段 代 码 中 ，D1 代表 个 位 数字 的 集合 ，D2 代表 十 位 数字 的 集合 。 
在 1-2 节 中 ， 我 们 已 经 学 习 了 通过 对 同一 张 表 进 行 交 叉 连 接 求 笛 卡 儿 积 的 
方法 。 这 里 我 们 再 回顾 一 下 ， 交 又 连接 可 以 得 到 两 个 集合 中 元 素 的 “所 有 
可 能 的 组 合 ”， 像 下 面 这 样 。 
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图 笛 卡 儿 积 : 得 到 所 有 可 能 的 组 合 

















D1 D2 





同样 地 , 通过 追加 D3、D4 等 集合 , 不 论 多 少 位 的 数 都 可 以 生成 。 而 且 ， 
如 果 只 想 生 成 从 1 开始 ， 或 者 到 542 结束 的 数 ， 只 需 在 WHERE 子 句 中 加 入 
过 滤 条 件 就 可 以 了 。 









































-- 求 连续 编号 (2) : 求 1~542 的 数 
io 
FROM Digits D1 CROSS JOIN Digits D2 
CROSSP JOLTNIDLT CSDS 
WHERE D1.digit + (D2.digit * 10) 
+ (D3.digit * 100) BETWEEN 1 AND 542 
ORDER BY seq; 





也 许 大 家 已 经 注意 到 了 ， 这 种 生成 连续 编号 的 方法 ， 完 全 忽略 了 数 
的 “顺序 ”这 一 属性 。 将 这 个 解法 和 本 书 多 次 介绍 过 的 冯 . 诺 依 曼 型 有 
ED 序数 的 定义 进行 比较 ， 可 以 很 容易 发 现 它们 的 区 别 6。 冯 . 诺 依 曼 的 广 
汪汪 这 信 过， 生肖 法 使 用 递归 集合 定义 自然 数 ， 先 定义 0 然后 得 到 1， 定义 1 然后 得 到 2， 
是 有 先后 顺序 的 因此 这 种 方法 适用 于 解决 位 次 、 累 计 值 等 与 顺序 相关 
的 问题 )。 
而 这 里 的 解法 完全 丢掉 了 顺序 这 一 概念 ， 仅 把 数 看 成 是 数字 的 组 合 。 
这 种 解法 更 能 体现 出 SQL 语言 的 特色 。 
通过 将 这 个 查询 的 结果 存储 在 视图 里 ， 就 可 以 在 需要 连续 编号 时 通过 
简单 的 sSELECT 来 获取 需要 的 编号 。 
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-- 生成 序列 视图 ( 包含 0~999 ) 
CREATE VIEW Sequence (sed) 
A eyo ol le (Dee en Oo) ee (ner sole oo 
PROMIDIgIES DICROSS VOLIN Dicits D2 
CROSS JOIN Digits D3; 














-- 从 序列 视图 中 获取 1~100 
SELECT Sed 

FROM Sequence 
WHERE seq BETWEEN 1 AND 100 
ORDER BY seqg; 























这 个 视图 可 以 用 于 多 种 目的 ， 非 常 方便 ， 因 此 事先 生成 一 个 后 ， 它 就 
可 以 在 很 多 场景 发 挥 作 用 。 
































本 | 求全 部 的 缺失 编号 


1-4 节 介绍 了 查找 连续 编号 中 的 缺失 编号 的 方法 。 当 时 的 解法 是 ， 如 
果 缺 失 编号 有 多 个 ， 只 取 其 中 最 小 的 一 人 个。 但是， 也许 有 些 人 看 完 那 个 解 
法 后 不 能 满足 ， 想 要 知道 如 何 求 出 全 部 的 缺失 编号 吧 。 
没 问题 。 如 果 使 用 前 一 道 例题 里 的 序列 视图 ， 很 容易 就 可 以 满足 上 四 
的 要 求 。 因 为 我 们 可 以 任意 地 生成 0 一 半 的 自然 数 集合 ， 所 以 只 需要 和 比 
较 的 对 象 表 进 行 差 集运 算 就 可 以 了 。 通 过 SQL 求 差 集 的 方法 有 很 多 种 。 
如 果 数 据 库 支持 EXcEPT， 那 么 我 们 可 以 直接 使 用 它 。 我 们 还 可 以 使 用 
NOT EXISTS 或 NOT IN， 甚 至 外 连接 的 方法 。 
作为 示例 ， 我 们 假设 存在 下 面 这 样 一 张 编号 有 缺失 的 表 。 
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丸 为 表 


























个 范 上 


最 小 的 值 是 1， 最 大 的 值 是 12， 所 以 我 们 可 以 根据 这 











ey 








从 序列 视图 中 获取 数 。 下 面 两 条 SQL 语句 都 会 返回 缺失 的 编号 3、9、10。 








--EXCEPT 版 
SELECT Sed 
FROM Sequence 
WHERE seq BETWEEN 1 AND 12 
“pT 


SELECT seq FROM SeqTbl; 


--NOT IN 版 
SELECT seq 
FROM Sequence 
WHERE seq BETWEEN 1 AND 12 
AND seq NOT IN (SELECT seq FROM SeqTb1) ; 














不 满足 于 之 前 解法 的 人 看 到 这 里 的 新 解法 应 该 可 以 满足 了 。 



































这 里 补充 一 些 内 容 。 可 能 像 下 面 这 么 做 性 能 会 有 所 下 降 ， 但 是 

















通过 扩 




















展 BETWEEN 谓词 的 参数 ， 我 们 可 以 动态 地 指定 目标 表 的 最 大 值 和 最 小 值 。 





代码 如 下 所 示 。 











-- 动态 地 指定 连续 编号 范围 的 SQL 语句 
SELECT sed 
FROM Sequence 
WHERE seq BETWEEN (SELECT MIN(seq) FROM SedTbl) 
AND (SELECT MAX (seq) FROM SedqTb1l) 





EXCEPT 
SELECT seq FROM SegTbl; 











这 种 写法 在 查询 上 限 和 下 限 未 必 固定 的 表 时 非常 方便 。 两 个 





o 






































有 相关 性 ， 而 且 只 会 执行 一 次 。 如 果 在 “seq” 列 上 建立 索引 ， 那 




















函数 的 运行 可 以 变 得 更 快速 。 



































查询 没 








么 极 值 
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上 = 个 人 能 从 得 TF 
和 朋友 们 一 起 去 旅行 ， 预 约 火 车 票 或 机 票 时 ， 却 发 现 没 有 能 让 所 有 人 

挨 着 坐 的 空位 ， 于 是 某 个 人 不 得 不 和 大 家 分 开 坐 一 一 这 样 不 爽 的 事情 可 能 

不 少 人 都 遭遇 过 吧 。 接 下 来 我 们 思考 几 道 与 连 座 相关 的 例题 。 
我 们 假设 存在 下 面 这 样 一 张 存储 了 火车 座位 预订 情况 的 表 。 




















































































































Seats 


seat( 座位 ) status ( 状态 ) 

































































我 们 假设 一 共 3 个 人 一 起 去 旅行 , 准备 预订 这 列 火 车 的 车 票 。 问 题 是 ， 
从 1 一 15 的 座位 编号 中 ， 找 出 连续 3 个 空位 的 全 部 组 合 。 我 们 把 由 连续 
的 整数 构成 的 集合 ， 也 就 是 连续 编号 的 集合 称 为 “序列 ”。 这 样 序列 中 就 
不 能 出 现 缺失 编号 。 

我 们 希望 得 到 的 结果 是 下 十 
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下 





种 。 

















3.5 
ss7~9 
“8~ 10 
。9~11 
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(7, 8, 9, 10, 11) 这 个 序列 中 ， 包 含 3 个 子 序列 (7, 8, 9)、(8, 9, 10)、(9， 
10, 1D)， 我 们 也 把 它们 当成 不 同 的 序列 。 还 有 ， 通 常 火车 的 一 排 只 有 几 个 
座位 ， 所 以 可 能 我 们 表 里 的 座位 会 分 布 在 几 排 里 ， 但 我 们 暂时 忽略 掉 这 个 
问题 ， 假 设 所 有 的 座位 排 成 了 一 条 直线 。 

































































国 7 ~ 11 的 序列 包含 3 个 子 序列 
OOOOGOOOOLNLOO 


借助 上 面 的 图 表 我 们 可 以 知道 ， 需 要 满足 的 条 件 是 ， 以 n 为 起 点 、 
1+(3-1 为 终点 的 座位 全 部 都 是 未 预订 状态 (请 注意 如 果 不 减 1， 会 多 取 
一 个 座位 )。 我 们 的 解法 如 下 所 示 。 





















































-- 找 出 需要 的 空位 (1) : 不 考虑 座位 的 换 排 





SELECT S1.seat RSESstarcEseat < S25SEaEEASEEnmdESEat 
FROM Seats S1, Seats S2 
WHERE S2.seat = S1.seat + (:head cnt -1) -- 决定 起 点 和 终点 
AND NOT EXISTS 
(SELECT * 


FROM Seats S3 
WHERE S3.seat BETWEEN Sl1.seat AND S2.seat 
AND S3.status <> ' 未 预订 ' ) ; 


其 中 ,“:head_cnt” 是 表示 需要 的 空位 个 数 的 参数 。 通 过 往 这 个 参 
数 里 赋 具 体 值 ， 可 以 应 对 任意 多 个 人 的 预约 。 

这 条 查询 语句 充分 体现 了 SQL 在 处 理 有 序 集合 时 的 原理 ， 这 里 详细 
地 解说 一 下 。 对 于 这 个 查询 的 要 点 , 我 们 分 成 两 个 步骤 来 理解 更 容易 一 些 。 





































































































第 一 步 : 通过 自 连接 生成 起 点 和 终点 的 组 合 

就 这 条 SQL 语句 而 言 ， 具 体 指 的 是 s2.seat = Sl.seat + (:head_ 
cnt-1) 的 部 分 。 这 个 条 件 排除 掉 了 像 1 一 8` 2 一 3 这 样 长 度 不 是 3 的 组 合 ， 
从 而 保证 结果 中 出 现 的 只 有 从 起 点 到 终点 刚好 包含 3 个 空位 的 序列 。 















































第 二 步 : 描述 起 点 到 终点 之 间 所 有 的 点 需要 满足 的 条 件 
决定 了 起 点 和 终点 以 后 ， 我 们 需要 描述 一 下 内 部 各 个 点 需要 满足 的 条 
件 。 为 此 ， 我 们 增加 一 个 在 起 点 和 终点 之 间 移 动 的 所 有 点 的 集合 〈 即 以 上 























| 























1-9 SQL 处 理 数列 











157 @ 





















































SQL 中 的 S3)。 限 定 移动 范围 时 使 用 BETWEEN 谓词 很 方便 。 
在 本 例 中 ， 序 列 内 的 点 需要 满足 的 条 件 “ 所 有 座位 的 状态 都 是 “未 
预订 ”。 
这 种 形式 的 条 件 我 们 在 前 面 已 经 见 过 了 。 这 是 谓词 逻辑 里 的 一 种 被 称 
为 全 称 量化 的 命题 。 但 是 ， 我 们 在 SQL 中 不 能 直接 表达 这 个 条 件 。 在 
SQL 中 遇 到 需要 全 称 量化 的 问题 时 ， 一 般 的 思路 都 是 把 “所 有 行 都 满足 条 
件 P” 转 换 成 它 的 双重 否定 一 一 不 存在 不 满足 条 件 P 的 行 。 
寻 此 ， 子 查询 里 的 条 件 也 不 是 “s3.status = “未 预订 ”” 而 是 它 的 
否定 形式 “s3.status <> ‘未 预订 ””。 
接 下 来 我 们 看 一 下 这 道 例 题 的 升级 版 ， 即 发 生 换 排 的 情况 。 假 设 这 列 
火车 每 一 排 有 5 个 座位 。 我 们 在 表 中 加 上 表示 行 编号 “row_id” 列 。 









































































































































































































































Seats2 


seat( 座位 ) row_id( 行 编号 ID) I EL) 


请 
































中 |oolwvDDIODOI 人 INDIPPI 一 















































这 种 情况 的 话 ， 即 使 不 考虑 换 排 ， 属 于 连续 编号 的 序列 (9, 10, 11) 也 
不 符合 条 件 。 这 是 因为 ， 坐 在 11 号 座位 的 人 其 实 已 经 是 自己 一 个 人 坐 在 
另 一 排 了 。 
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因为 发 生 换 排 ， 所 以 9~11 的 序列 不 符合 条 件 





























要 想 解决 换 排 的 问题 ， 除 了 要 求 序 列 内 的 所 有 座位 全 部 都 是 空位 ， 还 
需要 加 入 “全 部 都 在 一 排 ”这 样 一 个 条 件 。 稍 微 修 改 一 下 就 可 以 实现 ， 请 
看 下 面 的 SQL 语句 。 

-- 找 出 需要 的 空位 (2) : 考虑 座位 的 换 排 
SELECT S1.seat As startleeat JS2RSESEEASEEn9ESEa 
FROM Seats2 S1, Seats2 S52 
WHERE S2.seat = Sl.seat + (:head cnt -1) -- 决定 起 点 和 终点 
AND NOT EXISTS 
(SELECT * 
FROM Seats2 S83 
WHERE S3.seat BETWEEN Sl1.seat AND S2.seat 


AND ( S3 .status <> ' 未 预 iJ' 
OR S38 rowD Ld <> ST row so) 
图 执行 结果 
SancEsEat ENOESEaE 
Se 号 
8 10 
Tc» 3 


A 要 满足 的 条 件 是 ,“ 所 有 座位 的 状态 都 是 “未 预订 ”， 且 


行 编号 相同 ” 








在 句 的话， 就 是 像 下 面 这 样 。 


里 新 加 的 条 件 是 “ 行 编号 相同 ”， 
号 相同 ”( 当 然 ， ee 





等 价 于 “与 起 点 的 行 编 
以 )。 把 这 个 条 件 直 接 写 成 SQL 























S3 .status = ! 未 预订 ' AND S3.row id = S1.row id 














一 











日 是 前 面 也 说 了 ， 














于 SQL 中 不 存 








这 个 条 件 的 否定 ， 即 改 成 下 
































全 称 量词 ， 所 以 我 们 必须 使 用 








用 这 样 的 否定 形式 。 
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NOT (S3.status = ! 未 预订 ' AND S3.row id = S1.row id) 
= S3.status <> ' 未 预订 ' OR S3 .row id <> Sl1.row id 























“肯定 全 双重 否定 ”之 间 的 等 价 转换 是 使 用 SQL 进 和 
必 备 技巧 ， 请 一 定 熟练 掌握 。 





dl 
忆 
Ey 
HI 
会 
Tr 
wa 
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最 多 能 坐 下 多 少 人 

接 下 来 的 例题 和 上 一 道 刚好 相反 。 这 次 要 查询 的 是 “ 按 现在 的 空位 状 

况 ， 最 多 能 坐 下 多 少 人 ” 换 名 话说， 要 求 的 是 最 长 的 序列 。 我 们 使 用 下 
面 这 张 表 Seats3。 

















Seats3 


seat( 座位 ) status( 状态 ) 
































中 | 9DI|D| 人 上 | 一 





























就 这 张 表 而 言 ， 长 度 为 4 的 序列 “2 一 5$” 就 是 我 们 的 答案 。 为 了 便 
于 解答 这 道 例题 ， 我 们 可 以 先生 成 一 张 存储 了 所 有 可 能 序列 的 视图 。 有 了 
视图 之 后 ， 我 们 只 需 从 中 查找 出 最 长 的 序列 就 可 以 了 。 

针对 表 Seats3 中 的 数据 ， 要 想 保 证 从 座位 A 到 另 一 个 座位 B 是 一 个 
序列 ， 则 下 面 的 3 个 条 件 必 须 全 部 都 满足 。 






































[ot 
六 
这 
LA 
































”条 件 1: 起 点 到 终点 之 间 的 所 有 座位 状态 都 是 “未 预订 ”。 
”条 件 2: 起 点 之 前 的 座位 状态 不 是 “未 预订 ”。 
”条 件 3: 终点 之 后 的 座位 状态 不 是 “未 预订 ”。 











例如 从 条 件 1 来 说 ， 如 果 像 下 面 这 样 中 间 出 现 了 “已 预订 ”的 座位 ， 
那么 很 显然 ， 这 个 区 间 已 经 不 符合 序列 的 条 件 了 。 
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图 不 符合 条 件 1 的 情况 


一 人 /AAA 





序列 中 途 断 了 











同样 ， 对 于 起 点 和 终点 还 能 继续 延伸 的 区 间 ， 我 们 也 要 排除 掉 〈 因 为 
延伸 后 的 起 点 和 终点 构成 的 区 间 更 符合 条 件 )。 





























图 不 符合 条 件 2 的 情况 


起 点 





起 点 还 能 往 前 延 人 








图 不 符合 条 件 3 的 情况 


终点 


终点 还 能 往 后 延 人 



































这 里 也 与 前 面 的 例题 一 样 ， 分 两 个 步骤 来 解决 。 我 们 可 以 先生 成 一 张 
下 面 这 样 的 视图 。 











-- 第 一 阶段 : 生成 存储 了 所 有 序列 的 视图 
CREATE VIEW Sequences (start seat, end seat, seat cnt) AS 
SHEECE SL seac ASTSstare lseae, 
S2.seat AS end seat, 
Ss2Neaee St sea Asseatyent 
FROM Seats3 S1, Seats3 S52 


WHERE S1.seat <= S2.seat -- 第 一 步 . 生成 起 点 和 终点 的 组 合 
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AND NOT EXISTS -- 第 二 步 : 描述 序列 内 所 有 点 需要 满足 的 条 件 
(SELECT * 
FROM Seats3 S53 
WHERE ( S3.seat BETWEEN S1.Seat AND S2.seat 
AND S3.status <> ' 未 预订 ')  -- 条 件 1 的 否定 
OR(SeNseae Nea TAN eo atu 下 激 训 5) 
-- 条 件 2 的 否定 
OR seac = sea AnD oe ta Sm 
-- 条 件 3 的 否定 











这 个 视图 包含 以 下 的 内 容 。 


Startsealt endseat Seat Dent 
到 > 4 
六 于 
S 10 疫 





把 长 度 为 1 的 “7 一 7” 称 为 序列 (连续 编号 ) 可 能 会 有 点 语义 上 的 
矛盾 ， 但 是 我 们 和 暂时 还 是 保留 这 种 情况 〈 如 果 想 要 去 除 ， 请 去 掉 WHERE 
子 句 里 s1.seat<= S2.seat 中 的 等 号 )。 

生成 这 个 视图 后 ， 剩 余 的 工作 就 简单 了 。 我 们 从 这 个 视图 中 找 出 座位 
数 (seat_cnt) 最 大 的 一 行 数据 。 




































































-- 第 二 阶段 : 求 最 长 的 序列 


SELECINSEartes ar endlseac eatnent 
FROM Sequences 
WHERE seat cnt = (SELECT MAX(seat cnt) FROM Sequences) ; 











这 道 例 题 也 一 样 ， 首 先 根据 第 一 步 ， 通 过 自 连接 “sl.seat <= S2. 
seat” 求 出 起 点 和 终点 的 组 合 。 这 种 用 法 在 1-2 节 也 出 现 过 。 
在 决定 了 起 点 和 终点 之 后 ， 为 了 描述 起 点 和 终点 之 间 的 点 都 必须 满足 
的 条 件 ， 我 们 追加 了 在 起 点 和 终点 之 间 移 动 的 点 的 集合 S3， 然 后 使 用 存 
在 量化 的 否定 形式 来 表达 了 全 称 量化 ， 这 些 都 和 前 面 例题 的 解法 完全 相同 
(只 不 过 这 里 的 S3 中 起 点 和 终点 都 往外 延伸 了 一 个 点 )。 
这 两 个 步骤 是 使 用 SQL 处 理 有 序 集合 的 基本 方法 。 因 此 在 阅读 下 文 
时 ， 请 回忆 起 这 两 个 步骤 。 下 面 的 例题 可 以 看 成 是 本 例题 的 扩展 ， 我 们 会 
用 到 “第 四 个 集合 ”。 
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力 】 单调 递增 和 单调 递减 


假设 存在 下 面 这 样 一 张 反映 了 某 公司 股价 动态 的 表 。 




















MyStock 


price( 股价 ) 


















































之 前 的 例题 与 有 序 集合 相关 ， 都 是 关于 “ 数 ” 的 。 其 实 ,“ 日 期 ”也 
是 有 顺序 的 。 这 里 ， 我 们 求 一 下 股价 单调 递增 的 时 间 区 i 上 表 来 看 ， 
目标 结果 是 下 面 两 个 。 




















又 
Ei 
oo 
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。 2007-01-06 ~ 2007-01-08 
e 2007-01-14 ~ 2007-01-17 





这 里 需要 先 排除 掉 像 2007-01-08 ~ 2007-01-09 这 样 股价 持平 的 区 间 ， 
然后 按照 前 面 讲 过 的 基本 方法 ， 首 先进 行 第 一 步 一 一 通过 自 连接 生成 起 点 
和 终点 的 组 合 。 


























-- 生成 起 点 和 终点 的 组 合 的 SQL 语句 
spELECTSi dealdate 9 AS start date, 
s2sdealldaten as endlidate 
FROM MyStock S1, MyStock S82 
WHERE Sl dcadatee SNdealdace, 


























结果 的 行 数 较 多 ， 一 共有 28 个 组 合 ， 因 此 这 里 不 再 展示 。 接 下 来 我 
们 排除 掉 不 符合 条 件 的 组 合 ， 即 进行 第 二 步 i 述 起 点 和 终点 之 间 的 所 
有 点 需要 满足 的 条 件 。 
能 够 保证 某 个 时 间 区 间 内 股价 单调 递增 的 充分 条 件 是 ， 对 于 区 间 内 的 
王 意 两 个 时 间 点 ， 命 题 “ 较 晚 时 间 的 股价 高 于 较 早 时 间 的 股价 ”都 成 立 。 
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然后 ， 我 们 将 这 个 条 件 反 过 来 ， 得 到 需要 的 条 件 一 一 区 间 内 不 存在 两 个 时 
间 点 使 得 较 早 时 间 的 股价 高 于 较 晚 时 间 的 股价 。 

例如 ， 如 果 第 一 步 的 结果 里 包括 “2007-01-12”=900、“2007-01-13”= 
880 这 样 的 组 合 ， 那 么 这 个 区 间 就 不 是 单调 递增 的 。 因 此 ， 我 们 可 以 像 下 
面 这 样 解答 。 

































































-- 求 单调 递增 的 区 间 的 sQL 语句 : 子 集 也 输出 
SENRCRESTEOealedace Ascartidate, 
spndealnadateq senddate 
FROM MyStock S81, MyStock S52 
WHERE Sl1.deal date < S2.deal date -- 第 一 步 ;生成 起 点 和 终点 的 组 合 
AND NOT EXISTS 
( SELECT * -- 第 二 步 : 描述 区 间 内 所 有 日 期 需要 满足 的 条 件 
FROM MyStock S3, MyStock S4 
WHERE S3.deal date BETWEEN Sl.deal date AND S2.deal date 
AND S4.deal date BETWEEN S1.deal date AND S2.deal date 
AND'S3.deal date < Ss4.deal date 
AND SS pece SS DE) 

































































































































































图 执行 结 

start date end date 

2007-01-06 2007-01-08 

2007-01-14 2007-01-16 

2007-01-14 2007-01-17 

2007-01-16 2007-01-17 

寻 为 我 们 需要 取 区 间 内 的 两 个 点 ， 所 以 需要 相应 地 增加 两 个 集合 ， 即 

S3 和 S4。 子 查询 里 的 两 个 BETWEEN 谓词 用 于 保证 S3 和 S4 的 移动 范围 在 
区 间 内 (处 理 有 序 集合 的 时 候 BETWEEN 谓词 真 的 很 好 用 )。 后 面 的 
Ss3.deal date < S4.deal date 描述 了 S4 里 的 日 期 比 S3 里 的 日 期 晚 的 












































条 件 。 最 后 的 s3.price >= s4.price 描述 了 过 去 的 股价 更 高 (或 者 持平 ) 
的 条 件 。 通 过 这 样 的 分 析 ， 我 们 可 以 明白 虽然 上 面 这 条 SQL 语句 看 起 来 
比较 长 ， 但 是 每 个 谓词 都 具有 明确 的 意义 。 

顺便 说 一 下 ， 这 个 碍 询 的 结果 里 包含 像 2007-01-14 一 2007-01-17 或 
2007-01-16 ~ 2007-01-17 这 样 的 子 集 。 最 后 ， 我 们 要 把 这 些 不 需要 的 子 集 
排除 掉 。 使 用 极 值 函数 很 容易 就 能 实现 。 
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-- 排除 掉 子 集 ， 只 取 最 长 的 时 间 区 间 








SELECT MIN(start date) AS start date, -- 最 大 限度 地 向 前 延伸 起 点 
endidatee 
FROM (SELECT S1.deal date AS start date, 
MAX(S2.deal date) RS end date -- 最 大 限度 地 向 后 延伸 终点 








FROM MyStock S1, MyStock S2 
WHERE SU dealldate = S2dealldate 
AND NOT EXISTS 
(SHEECI 
FROM MyStock S3, MyStock S84 
WHERE S3.deal date BETWEEN S1.deal date AND S2.deal date 
AND S4.deal date BETWEEN S1.deal date AND S2.deal date 
AND S3.deal date < S4.deal date 
AND® SS price >S= S44price) 
GROUE BY odealoa ee Me 
GROUB BY engydate, 








图 执行 结果 
Startldate end date 
2007 0 06 2007 0 08 
2007-01-14 2 























这 段 代码 的 关键 在 于 最 大 限度 地 延伸 起 点 和 终点 。 如 果 想 包含 持平 ( 广 
义 的 单调 递增 的 区 间 ， 只 需 去 掉 子 查询 里 s3.price >- s4.price 里 的 
等 号 就 可 以 了 。 因 为 子 查询 里 是 相反 的 条 件 ， 所 以 结果 里 想 要 包含 持平 区 
间 时 ， 要 反 过 来 把 等 号 从 条 件 里 去 掉 。 


























































































































本 节 主 要 介绍 了 以 数列 为 代表 的 有 序 集合 的 处 理 方法 ， 不 只 列举 出 了 
和 决 问题 的 Tips， 还 试 着 挖掘 出 了 隐藏 在 解法 背后 的 SQL 的 原理 。 
如 果 之 前 从 来 没有 想 过 所 有 的 问题 都 能 用 集合 论 和 谓词 逻辑 的 方法 来 
解决 ， 那 么 本 节 的 内 容 可 能 会 让 人 感觉 到 有 点 不 可 思议 。 这 是 因为 我 们 对 
这 两 个 相对 较 新 的 概念 (两 个 都 才 诞生 了 100 年 多 一 点 ) 还 不 是 很 了 解 ， 
还 不 能 灵活 地 掌握 。 可 能 也 是 因为 相对 较 新 ， 所 以 我 们 在 学 校 里 也 并 没有 
认真 地 学 习 ， 这 进一步 导致 了 对 它们 理解 的 萎 乏 。 但 是 ， 熟 练 掌 握 这 两 个 
概念 的 用 法 ， 对 于 提升 SQL 技能 来 说 是 必 不 可 少 的 。 
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下 面 是 本 节 要 点 。 
1. SQL 处 理 数据 的 方法 有 两 种 。 
2. 第 一 种 是 把 数据 看 成 忽略 了 顺序 的 集合 。 
3. 第 二 种 是 把 数据 看 成 有 序 的 集合 ， 此 时 的 基本 方法 如 下 。 

a. 首先 用 自 连接 生成 起 点 和 终点 的 组 合 
b. 其 次 在 子 查 询 中 描述 内 部 的 各 个 元 素 之 间 必 须 满足 的 关系 

4. 要 在 SQL 中 表达 全 称 量化 时 ， 需 要 将 全 称 量化 命题 转换 成 存在 量 
化 命题 的 否定 形式 ， 并 使 用 NoT EXISTs 谓词 。 这 是 因为 SQL 只 实现 了 
谓词 逻辑 中 的 存在 量词 。 
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如 果 大 家 想 了 解 更 多 关于 用 SQL 处 理 数列 或 有 序 集合 的 方法 ,i 
苏 下 面 的 资料 。 
































1. Joe Celko,《SQL 权威 指南 (第 4 版 》( 人 民 邮 电 出 版 社 ，2013 年 ) 
用 SQL 处 理 数 列 的 方法 请 参考 第 32 章 “ 子 序列 、 区 域 、 顺 串 、 间 隙 及 
岛屿 ” 本 节 中 的 问题 很 多 都 源 于 这 里 。 
2. Joe Celko,《SQL 解 惑 (第 2 版 )》( 人 民 邮 电 出 版 社 ，2008 年 ) 

使 用 序列 视图 求 缺 失 编号 的 方法 请 参考 “ 谜 题 57 间隔 一 一 版 本 1”。Joe 
Celko 假定 两 张 表 中 都 没有 重复 的 数据 ， 从 而 使 用 EXCEPT ALL 来 提高 
能 。 这 种 做 法 是 不 错 ， 但 是 几乎 没有 数据 库 支 持 这 种 写法 ， 所 以 本 书 
中 只 是 简单 地 使 用 了 EXcEPT®，。 


支持 EXCEPT ALL 这 种 写法 的 数 
据 库 目前 只 有 DB2 和 PostgreSQL。 
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加 练习 题 





@ 练 习题 1-9-1 : 求 所 有 的 缺失 编号 一 一 NOT EXIST 和 外 连接 























正文 中 提 到 过 ，SQL 里 有 很 多 方法 可 以 实现 差 集运 算 。 正 文 里 介绍 ] 
使 用 EXCEPT 和 NoT IN 实现 的 方法 。 请 思考 一 下 使 用 NoT EXISTS 和 外 
连接 实现 的 方法 。 
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@ 练 习题 1-9-2 : 求 序列 一 一 面向 集合 的 思想 





在 “三 个 人 能 坐 得 下 吗 ” 部 分 , 我 们 用 NoT EXISTS 表达 了 全 称 量化 ， 
进而 求 出 了 序列 。 请 思考 一 下 如 何 使 用 HAVING 子 句 来 解决 这 个 问题 。 
在 解决 了 不 考虑 换 排 的 情况 之 后 ， 请 再 思考 一 下 考虑 换 排 的 情况 。 





@ 练 习题 1-9-3 : 求 所 有 的 序列 一 一 面向 集合 的 思想 











这 里 练习 用 集合 论 的 方法 去 完成 与 谓词 逻辑 同样 的 功能 。 在 “最 多 能 
坐 下 多 少 人 ”部 分 ， 我 们 使 用 NoT EXISTS 求 出 了 所 有 的 序列 ， 并 将 它们 
存储 在 了 视图 里 。 请 将 那 条 SQL 语句 用 HAVING 子 名 改写。 思路 和 练习 题 
1-9-2 大 致 相同 ， 只 不 过 特征 函数 的 条 件 稍微 复杂 一 些 。 


图 灵 社 区 会 员 非洲 铜 (africancu@126.com) 专 享 尊重 版 权 
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HAVING 子 句 又 回来 了 


基 再 也 不 要 叫 它 配 角 了 ! 


HAVING 子 句 是 SQL 中 的 重要 功能 之 一 。 在 1-4 节 中 ， 我 们 学 习 了 它 的 一 部 分 强大 功能 。 在 本 节 中 ， 
我 们 将 继续 学 习 HAVING 子 旬 的 应 用 技巧 ,这 些 技巧 充分 体现 了 HAVING 子 句 “调查 集合 自身 性 质 ” 的 特长 。 





我 在 教 SQL 课程 的 时 候 ， 最 重要 的 课题 之 一 是 让 学 生 们 暂时 起 
(unlearn ) 他 们 已 经 习惯 了 的 面向 过 程 语 言 。 我 使 用 的 方法 是 强调 SQL 的 
处 理 单 位 不 是 记录 ， 而 是 集合 。@ 
一 Joe Celko 


yoe Celko, Thinking in Aggregates, 
2005 年 。 





























在 前 面 章 节 中 我 们 曾 多 次 说 过 ， 学 习 SQL 时 最 大 的 阻碍 就 是 我 们 已 
经 习惯 了 的 面向 过 程 语 言 的 思考 方式 〈 排 序 、 循 环 、 条 件 分 文 、 赋 值 等 )。 
为 了 深入 理解 SQL 的 本 质 ， 我 们 必须 暂时 气 弃 已 有 观念 ， 返 开 归 真一 一 
这 就 是 Joe Celko 说 的 unlearn 的 意思 。Joe Celko 本 人 最 初 是 从 Fortran 开 
始 程 序 员 职业 生涯 的 ， 然 后 接触 了 C、Algol、Pascal 等 面向 过 程 语言 之 后 
才学 习 的 SQL， 所 以 他 的 话 应 该 是 有 感 而 发 。 

不 过 说 起 来 容易 做 起 来 难 。 放 弃 掉 长 期 以 来 习惯 了 的 思考 方式 ， 臣 怕 
对 任何 人 来 说 都 不 是 一 件 简单 的 事情 。 笔 者 认为 ， 学 习 HAVING 子 句 的 用 
法 是 帮助 我 们 顺利 地 忘掉 面向 过 程 语言 的 思考 方式 并 理解 SQL 面向 集合 
特性 的 最 为 有 效 的 方法 。 这 是 因为 ，HAVING 子 句 的 处 理 对 象 是 集合 而 不 
是 记录 ， 所 以 只 有 习惯 了 面向 集合 的 思考 方式 ， 才 能 真正 地 学 好 它 。 

好 了 ， 接 下 来 我 们 再 来 感受 一 下 “HAVING 子 句 的 力量 ” 吧 。 这 回 也 
要 画 很 多 维 恩 图 ， 大 家 准备 好 纸 和 笔 了 吗 ? 
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剧 ; 各 队 ， 全 体 点 名 


首先 恭喜 你 被 任命 为 了 消防 队 “〈 或 地 球 保卫 队 ) 总 负责 人 。 现 在 你 收 
到 了 来 自 司令 部 的 出 勤 指示 。 

你 需要 做 的 是 查 出 现在 可 以 出 勤 的 队伍 。 可 以 出 勤 即 队伍 里 所 有 队员 
都 处 于 “待命 ”状态 。 我 们 使 用 的 是 下 面 这 张 表 。 

































































Teams 


member ( 队员 ) team_id ( 队伍 编号 ID ) ， status ( 状态 ) 




















CC 
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口 
三 



































这 张 示例 表 中 ， 可 以 出 勤 的 队伍 是 3 队 和 4 队 。4 队 里 虽然 只 有 贝斯 
1 人 ， 但 是 确实 也 是 全 队 都 集 齐 了 。 我 们 来 思考 一 下 求 可 以 出 勤 的 队伍 的 
SQL 语句 。 

“所 有 队员 都 处 于 “待命 ”状态 ”这 个 条 件 是 全 称 量化 命题 ， 所 以 可 
以 用 NoT EXISTS 来 表达 。 










































































-- 用 谓词 表达 全 称 量化 命题 
SELECT team id, member 
FROM Teams T1 
WHERE NOT EXISTS 
(SELECT * 
FROM Teams T2 
WHERE TI1.team id = T2.team id 
AND status <> ' 待 命 ' ) ; 
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图 执行 结果 















































SI 
本 车 
3 ”迪克 
4 ”贝斯 
注 @ 这 条 SQL 语句 使 用 了 下 面 这 样 的 全 称 量化 和 存在 量化 之 间 的 转换 @。 
如 果 不 知 道 量化 是 什么 ， 可 以 参 
考 1-8 节 中 的 “理论 篇 "， 特 别 是 
“全 称 量化 和 存在 量化 ”部 分 。 “所 有 队员 都 处 于 待命 状态 ”= “不 存在 不 处 于 待命 状态 的 队员 ” 























这 个 查询 性 能 很 好 ， 而 且 结 果 中 能 体现 出 队员 信息 ， 这 些 是 它 好 的 地 
方 。 但 是 因为 使 用 了 双重 否定 ， 所 以 理解 起 来 不 是 很 容易 。 而 如 果 使 用 
HAVING 子 句 ， 写 起 来 就 非常 简单 了 ， 像 下 面 这 样 。 














































































































-- 用 集合 表达 全 称 量 化 命题 (1) 
SELECT team id 
FROM Teams 
GROUP BY team id 
HAVING COUNT(*) = SUM(CASE WHEN status =' 待 命 ' 
THEN 1 
ELSE 0 END); 














图 执行 结果 


team id 

















上 面 这 条 SQL 语句 是 一 个 肯定 句 , 理解 起 来 更 直观 , 而 且 代 码 很 简洁 。 
接 下 来 我 们 仔细 看 一 下 这 条 SQL 语句 具体 做 了 些 什么 。 第 一 步 还 是 使 用 
GROUP BY 子 句 将 Teams 集合 以 队伍 为 单位 划分 成 几 个 子 集 。 
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S2: 2 队伍 
出 勤 中 
休息 
S3: 3 队伍 S4: 4 队伍 S5: 5 队伍 
出 勤 中 


































































































么 有 而 其 他 集合 没有 的 特 
征 是 什么 呢 ? 答案 是 ， 处 于 “待命 ”状态 的 数据 行 数 与 集合 中 数据 总 行 数 
相等 。 这 个 条 件 可 以 用 cASE 表达 式 来 表达 ， 状 态 为 “待命 ”的 情况 下 返 
可 1， 其 他 情况 下 返回 0。 也 许 大 家 已 经 注意 到 了 ， 这 里 使 用 的 是 特征 函 
数 的 方法 。 
根据 是 否 满足 条 件 分 别 为 表 里 的 每 一 行 数据 加 上 标记 1 或 0， 这 样 更 
好 理解 一 些 ， 如 下 表 所 示 。 












































































































































member ( 队员 ) team_id ( 队伍 编号 ID ) status ( 状态 ) ”特征 函数 标记 
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顺便 说 一 下 ，HAVING 子 句 中 的 条 件 还 可 以 像 下 面 这 样 写 。 
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本 用 合 表 达 全 称 化 命题 (2 
SELECT team id 
FROM Teams 
GROUP BY Eeam ld 
HAVING MAX (status) = ' 待 命 ' 
AND MIN (status) = ' 待 命 '; 
这 条 SQL 语句 的 意思 大 家 明白 吗 ? 某 个 集合 中 ， 如 果 元 素 最 大 值 和 
最 小 值 相 等 ， 那 么 这 个 集合 中 肯定 只 有 一 种 值 。 因 为 如 果 包 含 多 种 值 ， 最 





大 值 和 最 小 值 肯定 不 会 相等 。 极 值 函 数 可 以 使 有 






























































日 参数 字段 的 索引 ， 所 以 这 


种 写法 性 能 更 好 (当然 本 例 中 只 有 3 种 值 ,建立 索引 也 并 没有 太 大 的 意义 )。 





































































































当然 也 可 以 把 条 件 放 在 sSELECT 子 句 里 ， 以 列表 形式 显示 
是 否 所 有 队员 都 在 待命 ， 这 样 的 结果 更 加 一 目 了 然 。 
-- 列表 显示 各 个 队伍 是 否 所 有 队员 都 在 待命 
SELECT team iad， 
CASE WHEN MAX (status) = ' 待 命 ' AND MIN (status) = ! 待 命 





THEN ' 全 都 在 待命 ' 
ELSE ' 队长! 人手 不 够 ' END AS status 











FROM Teams 
GROUEP BY Eeamel, 














team id status 
9 队长" 人手 不 够 
加 队长 ! 人 手 不 够 
3 ”全 都 在 待命 
4 ”全 都 在 待命 
5 ”队长 ! 人 手 不 够 





需要 注意 的 是 ， 条 件 移 到 SELECT 子 句 后 ， 查 询 可 能 就 不 会 被 数据 库 


比 HAVING 子 句 的 写法 会 差 


优化 了 ,所 以 性 能 上 相 


























需要 根据 我 们 对 信息 量 和 性 能 的 县 体 需求 来 判断 。 


出 各 个 








队伍 








些 。 至 于 选择 哪 种 写法 ， 

















三 
CC 


在 1-7 节 中 我 们 也 说 过 ， 关 系数 据 库 : 
多 重 集合 。 与 之 相反 ， 通 常 意 





为 “ 单 重 集合 ”( 这 是 笔者 自 























允许 循环 插入 和 频繁 读 写 的 表 中 有 可 能 产 4 

































































的 集合 是 允许 重复 数据 存在 的 
义 的 集合 论 中 的 集合 不 允许 数据 重复 ， 被 称 
己 造 的 词 ， 并 非 公 认 的 术语 )。 

产生 重复 数据 。 在 定义 表 时 加 
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入 唯一 性 约束 可 以 预防 表 中 产生 重复 数据 ， 
务 需求 不 同 ， 产 生 重 复数 据 也 是 合理 的 。 
例如 ， 有 下 面 这 样 一 张 管理 各 个 生产 地 的 材料 库存 的 表 。 





i 

































































Materials 


center ( 生产 地 ) ” receive_date ( 入 库 日 期 ) ”material ( 材料 ) 
2007-4-01 
2007-4-12 
2007-5-17 
2007-5-20 
2007-4-20 
2007-4-22 
2007-4-29 
2007-3-15 
2007-4-01 
2007-4-24 
2007-5-02 
2007-5-10 
2007-5-10 
2007-5-28 















































二 | 师 | 申 | 申 | 帅 





























各 生产 地 每 天 都 会 入 库 一 批 材料 ， 然 后 使 用 材料 生产 各 种 各 相 





旦 是 有 些 情况 下 根 志 











Hl 
y 

















体 的 业 


lL 的 产 


品 。 但 是 ， 有 了 时 材料 不 能 按 原 定 计 划 在 一 天 内 消耗 完 , 会 出 现 重 复 。 这 时 ， 














为 了 在 各 生产 地 之 间 调 整 重复 的 材料 ， 我 们 需要 调查 出 存在 重复 材料 的 生 














产地 。 









































先 来 分 析 一 下 满足 条 件 的 生产 地 具有 哪些 特征 。 从 表 中 我 们 可 以 看 到 ， 




















一 个 生产 地 对 应 着 多 条 数据 ， 因 此 “生产 地 ”这 一 实体 在 表 : 




















是 以 集合 





的 
































形式 ， 而 不 是 以 元 素 的 形式 存在 的 。 处 理 这 种 情况 的 基本 方法 就 是 使 用 




















GROUP BY 子 句 将 集合 划分 为 若干 个 子 集 ， 像 下 面 这 样 。 




















口 
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S: Materials 















COUNT(material)=3 
COUNT(DISTINCT material)=3 


COUNT(material)=4 
COUNT(DISTINCT material)=3 


S3 这 名 十 屋 




















COUNT(material)=2 
COUNTIDISTINCT materja 
COUNT(material)=5 

CT material)=3 





















因为 子 集 S1 和 S3 都 存在 重复 ， 
所 以 排除 掉 重 复元 素 后 数据 行 数 不 同 























目标 集合 是 锌 重复 的 东京 ， 以 及 钛 和 钢 重复 的 名 古 屋 。 那 么 这 两 个 集 
合 满足 而 其 他 集合 不 满足 的 条 件 是 什么 呢 ? 

这 个 条 件 是 ,“ 排 除 掉 重 复元 素 后 和 排除 掉 重 复元 素 前 元 素 个 数 不 相 
同 ”。 这 是 因为 , 如 果 不 存 在 重复 的 元 素 , 不 管 是 否 加 上 DISTINCT 可 选项 ， 
COUNT 的 结果 都 是 相同 的 。 

















mh 















































-- 选中 材料 存在 重复 的 生产 地 
SELECT center 
FROM Materials 
GROUPPBY CenGEer 
HAVING COUNT (material) <> COUNT (DISTINCT material); 
































图 执行 结果 
center 
古 屋 
虽然 我 们 无 法 通过 这 条 SQL 语句 知道 重复 的 材料 具体 是 哪 一 种 ， 但 

















是 通过 在 WHERE 子 句 中 加 上 具体 的 材料 作为 参数 ， 可 以 查 出 某 种 材料 存 
在 重复 的 生产 地 。 而 且 ,和 前 面 一 样 ,我 们 可 以 把 条 件 移 到 sgLEcT 子 句 中 ， 
这 样 就 能 在 结果 中 清晰 地 看 到 各 个 生产 地 是 否 存 在 重复 材料 了 。 












































SELECT Sale 
CASE WHEN COUNT (material) <> COUNT(DISTINCT material) THEN ' 人 存在 本 
ELSE ' 不 存在 重复 ' END AS status 
FROM Materials 
GROUP BY center; 


着 
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cen 
































而 且 
中 的 GROUP BY， 其 实 就 
划分 操作 的 更 多 内 容 ， 可 


ter 





从 1-4 节 开 始 我 们 进行 了 许多 与 HAVING 子 句 相关 的 练习 ， 所 以 对 于 
日 GROUP BY 将 原来 的 表 划 分 为 子 集 上 
巴 。 接 下 来 针对 我 们 一 直 在 使 月 
芷 的 知识 。 在 数学 中 ， 
作 划 分 (partition )。 
按照 某 种 规 贝 


status 




















了 进行 分 割 后 得 到 的 子 引 


























通过 GROUP BY 生成 的 子 集 有 一 个 对 
它 是 集合 论 和 和 群 论 中 的 重要 概念 ， 指 的 是 将 某 个 集合 
着 。 这 些 子 集 相互 之 间 没 有 重复 的 元 素 ， 

































































以 参考 本 书 2-5 节 )。 


顺便 说 一 下 ， 这 个 问题 也 可 以 通 
来 解决 。 
-- 存在 重复 的 集合 : 使 用 EXISTS 


SELECT center, material 











FROM Materials M1 
WHERE EXISTS 


(SELECT * 


FROM Materials M2 

WHERE MI center = M2 center 
AND MI neceiveldate <> M2 recelvendate 
AND Ml.material = M2.material); 


center material 








0 2 
赔 上 阅 周 向 








| 
| 





EXISTS 改写 后 的 SQL 语句 也 能 够 查 出 重复 的 具 




















山 


日 使 

















EXISTS 后 性 能 














的 思 考 方式 ， 大 家 已 经 非常 
的 “ 子 集 ”的 说 法 ， 稍 微 补充 一 点 理论 方 
应 的 名 字 ， 叫 





习惯 了 















































体 是 哪 





忆 们 的 并 集 就 是 原来 的 集合 。 这 样 的 分 割 操作 被 称 为 划分 操作 。SQL 


是 针对 集合 的 划分 操作 的 具体 实现 〈 关 于 划分 和 


前 过 将 HAVING 改写 成 EXISTS 的 方式 


种 材料 ， 








EE 也 很 好 。 相 反 地 ， 如 果 想 要 查 


不 存在 如 





E 复 材料 
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的 生产 地 有 哪些 ， 只 需要 把 EXTSTS 改写 为 NOT EXISTS 就 可 以 了 。 





大 | 寻找 缺失 的 编号 : 升级 版 


1-4 节 介 绍 过 下 面 这 样 一 条 查询 数列 的 缺失 编号 的 查询 语句 ， 大 家 还 
记得 吗 ? 














- 如 果 有 查询 结果 ， 说 明 存 在 缺失 的 编号 

SELECT ' 存 在 缺失 的 编号 ' AS gap 
EROMESecmD 

HAVING COUNT (*) <> MAX (seq); 


这 条 SQL 语句 有 一 个 前 提 条 件 ， 即 数列 的 起 始 值 必须 是 1。 大 部 分 
情况 下 这 样 是 没有 问题 的 ， 但 是 我 们 还 是 放宽 这 个 限制 条 件 ， 思 考 一 下 不 
管 数列 的 最 小 值 是 多 少 ， 都 能 用 来 判断 该 数列 是 否 连 续 的 SQL 语句 。 对 
新 的 SQL 语句 来 说 ， 下 面 4 种 情况 中 ，(3) 是 连续 的 ， 而 (4) 存在 数据 缺 
失 。 然 而 对 前 面 的 SQL 语句 来 说 ， 这 里 (3) 的 起 始 值 不 是 1， 所 以 是 不 















































































































































(2) 存在 缺失 编号 ( 起 始 值 = 1 ) 


Seq ( 连续 编号 ) 
1 

















2 
4 
5 
8 


(3) 不 存在 缺失 编号 ( 起 始 值 <>1 ) (4) 存在 缺失 编号 ( 起 始 值 <>1 ) 


Seq ( 连续 编号 ) 
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使 用 COUNT (* 


足 COUNT (*) 











ee 








的 , 即将 表 整 体 看 作 一 个 集合 ， 











1 4 种 情况 的 话 ， 每 张 表 都 满 





























=5。 而 且 ， 如 果 数 列 的 最 小 值 和 最 大 值 之 间 没 有 缺失 的 编号 ， 

















它们 之 间 包 含 的 元 素 的 个 数 应 该 是 “最 大 值 











下 面 这 样 写 比较 条 件 就 可 以 了 。 





























最 小 值 十 1”。 因 此 ， 我 们 像 


-- 如 果 有 查询 结果 ， 说 明 存在 缺失 的 编号 : 只 调查 数列 的 连续 性 
SELECT ' 存 在 缺失 的 编号 ' AS gap 
EROM SeqTbl 


HAVING COUNT(*) <> MAX (sed) 


这 条 SQL 语句 将 情况 (1) 和 (3) 看 成 是 连续 的 。 如 果 不 论 是 否 存 在 缺 




















- MIN(seq) + 工 ; 



























































失 的 编号 ， 都 想 要 返回 结果 ， 那 么 只 需要 像 下 面 这 样 把 条 件 写 到 SELECT 
里 就 可 以 了 。 














-- 不 论 是 否 存在 缺失 的 编号 都 返回 一 行 结果 
SELECT CASE WHEN COUNT(*) = 0 











THEN ' 表 为 空 ' 
WHEN COUNT(*) <> MAX (seq) 
THEN ' 存 在 缺失 的 编号 ' 

ELSE ' 连 续 ' END AS gap 





FROM SeqTbl; 


况 处 理 ， 返 


HAVING 的 SQL 语句 也 会 





口 














支 正 是 cASE 表达 式 的 魅力 所 在 。 
接 下 来 我 们 也 顺便 改进 一 下 查找 最 小 的 缺失 编号 的 SQL 语句 ， 去 掉 


起 始 值 必须 是 1 的 限制 。 
把 5 当成 最 小 的 缺失 编号 来 返 


对 于 之 月 


dh 看 句 中 稍微 多 做 了 一 点 处 理 ， 即 表 为 空 的 时 候 当 作 异 常 
“ 表 为 空 ”的 结果 (即使 是 表 为 空 的 时 候 ， 前 面 那 条 使 用 了 
认为 编号 是 连续 的 )。 像 这 样 表达 详细 的 条 件 分 











的 











SQL 语句 根本 不 会 去 检查 它们 的 下 一 个 数 是 否 


就 不 存在 1 的 情况 ， 我 们 退 


写 SQL 语句 。 


-- 查找 最 小 的 缺失 编号 表 中 没有 1 时 返 下 
SELECT CASE WHEN COUNT(*) = 0 OR MIN(seq) > 1 -- 




















THEN 1 


Il 








- MIN(seq) + 1 


天 


























yr 











前 的 简单 版 的 SQL 语句 来 说 ， 情 况 (4) 会 
。 因 为 表 中 并 没有 1 和 2， 所 以 简单 版 的 























存在。 对 于 像 这 样 表 中 原本 


加 一 个 条 件 分 文 让 它 返回 1， 即 像 下 面 这 样 来 








最 小 值 不 是 1 时 一 返回 1 














177 @ 








1-10 HAVING 子 句 又 回来 了 




















ELSE (SELECT MIN(seqg +1) -- 最 小 值 是 1 时 -返回 最 小 的 缺失 编号 
EROM SeqgqTbl S1 
WHERE NOT EXISTS 
(SELECT * 
FROM SeqTbl S82 
WHERE S52.seq = Sl.seq + 1)) END 








REROMESEsdTo 











可 以 看 到 ， 简 单 版 的 SQL 语句 以 标量 子 查 询 的 方式 整体 地 嵌入 到 了 
CASE 表达 式 的 返回 结果 块 里 。 考 虑 到 表 可 能 为 空 所 以 这 里 加 上 
COUNT(*) = 0 这 个 条 件 。 而 且 相 比 简 单 版 ，NoT IN 也 改写 成 了 NoT 
EXISTS， 这 样 写 是 为 了 处 理 值 为 NULL 的 情况 ， 以 及 略微 优化 一 下 性 能 
特别 是 如 果 在 “seq” 列 上 建立 了 索引 ， 那 么 使 用 NoT EXISTSs 能 明显 改善 


yy 


性 能 。 这 条 SQL 语句 会 返回 下 面 这 样 的 结 




































































全 已 
月 E。 

























































































。 情况 (1) : 6 ( 没有 缺失 的 编号 ， 所 以 返回 最 大 值 5 的 下 一 个 数 ) 
。 情况 (2) : 3 ( 最 小 的 缺失 编号 ) 
。 情况 (3) : 1 ( 因为 表 中 没有 1 ) 
。 情况 (4) : 1 ( 因为 表 中 没有 1 ) 














在 面向 过 程 语言 中 ,条 件 分 支 是 通过 IF 语句 或 者 CAsE 语句 等 进行 的 。 
日 是 在 SQL 语言 中 , 所 有 的 条 件 分 支 都 是 通过 “表达 式 〈 函 数 )” 进 行 的 。 
在 这 一 点 上 ，SQL 语言 跟 函 数 式 语言 非常 相似 。 







































































i 








鳃 为 集合 设置 详细 的 条 件 


最 后 ， 我 们 再 练习 一 些 使 用 cAsSE 表达 式 来 描述 特征 函数 的 方法 。 熟 
尾 这 些 方法 之 后 ， 不 管 多 么 复杂 的 条 件 都 能 轻松 地 表达 出 来 (不 是 夺 


ul 













































































这 里 以 下 面 这 张 记录 了 学 生 考 试 成 绩 的 表 为 例 进 行 讲解 。 
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TestResults 


student_ id =) sex ( 性 别 ) score ( 分 数 ) 


三 

















昭 | 灶 | 沼 | 半 | 冲 | 沾 





沼 





























DolololololwIlwmliwm|lwIlwlrIrIir 
冲 | 站 


冲 | 闪 | 冲 | 冲 | 当 | 尖 















































请 根据 这 张 表 回 答 后 面 儿 个 问题 , 这 次 笔者 不 会 给 
如 果 需 要 的 话 请 自己 画 一 下 。 
好 了 ， 我 们 先 看 一 个 简 和 





4 
A 
区 
还 
SS 
多 
















































































ny 


的 。 











第 1 题 : 请 查询 出 75% 以 上 的 学 生 分 数 都 在 80 分 以 上 的 班级 。 
班级 里 的 总 人 数 可 以 通过 couNT(*) 查 到 ，80 分 以 上 的 学 生 人 数 可 以 
通过 特征 函数 来 统计 ， 因 此 答案 如 下 所 示 。 















































SELECT class 
FROM TestResults 
GROUP BY class 
HAVING COUNT(*) * 0.75 
<= SUM(CASE WHEN score >= 80 
THEN 1 
EELSE OMEND)D 





图 执行 结果 


1-10 HAVING 子 句 又 回来 了 








179 @ 


怎么 样 ， 是 不 是 很 简单 ? 我们 继续 看 下 一 题 。 


第 2 题 ， 请 查询 出 分 数 在 50 分 以 上 的 男生 的 人 数 比 分 数 在 50 分 
以 上 的 女生 的 人 数 多 的 班级 。 


这 次 ， 两 个 条 件 都 可 以 用 特征 函数 来 描述 。 





好 了 ， 接 下 来 是 最 后 一 题 。 这 个 问题 有 些 地 方 有 点 棘手 ， 大 家 知道 是 
哪里 吗 ? 
第 3 题 : 请 查询 出 女生 平均 分 比 男生 平均 分 高 的 班级 。 

按照 和 前 两 题 一 样 的 思路 ， 像 下 面 这 样 写 的 人 应 该 不 少 吧 。 
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图 执行 结果 


结果 里 出 现 了 A 班 ， 没 有 什么 问题 。 因 为 A 班 男 生 的 平均 分 是 〈100 十 
30) /2 = 65， 女 生 的 平均 分 是 〈100 十 49) /2 = 74.5， 确 实 女生 的 平均 分 
更 高 。 这 里 ， 有 问题 的 是 D 班 。 

从 表 中 的 数据 我 们 可 以 发 现 ，D 班 全 是 女生 。 在 上 面 的 解答 中 ， 用 于 
判断 男生 的 cASE 表达 式 里 分 文 ELSE 0 生效 了 ， 于 是 男生 的 平均 分 就 成 
了 0 分 。 对 于 女生 的 平均 分 约 为 33.3 的 D 班 ， 条 件 0 < 33.3 也 成 立 ， 所 
以 D 班 也 出 现在 查询 结果 里 了 。 

这 种 处 理 方法 看 起 来 好 像 也 没什么 问题 。 但 是 ， 如 果 学 号 013 的 学 生 
分 数 刚 好 也 是 0 分 ， 结 果 会 怎么 样 呢 ? 这 种 情况 下 ， 女 生 的 平均 分 会 变 为 
0 分 ， 所 以 D 班 不 会 被 查询 出 来 。 

生 和 女生 的 平均 分 都 是 0， 但 是 两 个 0 的 意义 完全 不 同 。 女 生 的 平 
均 分 是 正常 计算 出 来 的 ， 而 男生 的 平均 分 本 来 就 无 法 计算 ， 只 是 强行 赋值 
为 0 而已。 真正 合理 的 处 理 方法 是 ,保证 对 空 集 求 平均 的 结果 是 “未 定义 ”， 
就 像 除 以 0 的 结果 是 未 定义 一 样 。 

根据 标准 SQL 的 定义 , 对 空 集 使 用 AVG 函数 时 , 结果 会 返回 NULL (用 
NULL 来 代替 未 定义 这 种 做 法 本 身 也 有 问题 ， 但 是 在 这 里 我 们 不 深究 ， 详 
细 内 容 可 以 参考 1-3 节 )。 下 面 我 们 看 一 下 修改 后 的 SQL 语句 。 
















































































































































































































































































































































































- 比较 男生 和 女生 平均 分 的 SQL 语句 (2) : 对 空 集 求 平 均值 后 返回 NULL 
SELECT class 
FROM TestResults 

GROUP BY class 

HAVING AVG(CASE WHEN sex = ' 男 ， 
THEN score 
ELSE NULL END) 
< AVG(CASE WHEN sex = ' 女 ' 
THEN score 
ELSE NULL END) ; 




















这 回 D 班 男生 的 平均 分 是 NULL。 因 此 不 的 平均 分 多 少 ，D 班 


哺 
名 








都 会 被 排除 在 查询 结果 之 外 。 这 种 处 理 








一 致 的 。 
关注 








Fr 

















这 种 确保 成 员 
论 不 谋 而 合 。 最 i 
非常 流行 ， 考 虑 到 
情况 就 一 点 都 不 奇 








集合 的 性 质 ， 





看 几 道 例 题 时 ， 我 们 考虑 
得 了 多 少 分 ， 并 没有 关注 。 
隐秘 性 的 
近 几 年 , 利用 
SQL 面向 集合 的 特性 
圣 了 。 在 今后 的 














作 统 计 分 析 的 工具 来 使 用 











HAVING 子 句 (和 


用 一 句 话 概 括 使 用 











抽象 成 集合 。 
来 处 理 


目 


二 | 









































处 理 了 。 























在 本 节 中 ， 我 们 学 习 了 HAVING 子 句 日 
GROUP BY) 的 用 法 ， 相 信 大 家 
HAVING 子 句 时 
自我 们 看 过 的 例题 ， 其 实 都 是 把 各 种 各 样 的 实体 当 作 集合 
了 。 其 中 有 像 数列 、 班 级 、 队 伍 这 样本 身 就 容易 看 作 是 集合 的 实体 ， 
也 有 像 店铺 、 生 产地 这 样本 身 是 原子 性 元 素 的 实体 ， 














需要 理解 的 是 ， 在 SQL 中 一 件 


反 过 来 说 ] 
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方法 和 AVG 上 























其 实 就 是 忽略 掉 单 个 元 素 的 特征 。 
的 也 是 班级 整体 具有 的 特点 和 趋势 ， 至 于 个 人 








来 了 








函数 的 处 理 逻 辑 也 是 














在 解答 














同时 研究 集体 趋势 的 ) 



































思考 方式 与 统计 学 的 方法 
关系 数据 库 进行 的 统计 分 析 《〈 特 别 是 在 美国 ) 
与 统计 学 之 间 的 相似 之 处 ， 这 种 
日 本 ， 应 该 也 会 越 来 越 多 地 将 数据 库 当 














的 一 些 稍微 高 级 点 的 用 


























上 3 过 








经 很 熟悉 了 。 














的 要 点 ， 训 








不 








i 是 要 搞 清楚 将 


这 些 都 被 当 作 集 合 来 











东 村 





全 已 
HEE 





象 成 集合 ， 

















界 : 
以 把 实 








体 抽象 成 集 























元 素 ， 因 此 指定 查询 条 件 时 应 该 使 
的 多 行 数据 ， 那 么 该 实体 应 该 被 看 作 集合 














| 





日 HAVING 子 句 。 





的 实际 意义 无 关 ， 


人 
[= 











只 取决 了 

















它 在 表 中 的 存在 形式 。 
也 可 以 把 它 抽象 成 集合 
如 果实 体 对 应 的 是 表 中 的 一 行 数据 ， 








什么 东 














和 它 在 现实 世 
根据 需要 ， 我 们 可 








中 的 元 素 。 
那么 该 实体 应 ii 





去 被 看 作 集合 中 的 





























， 因 出 

















最 后 ， 我 们 整理 








F 在 




















调查 集合 性 质 时 经 常 














以 在 HAVING 子 句 中 

















i 











使 用 ， 








到 的 条 件 。 
也 可 以 通过 SELECT 子 句 写 在 CASE 表达 式 昌 
， 需 要 的 时 候 可 以 参考 一 下 。 











WHERE 子 句 。 如 果实 体 对 应 的 是 表 
上 指定 查询 条 





牛 时 应 该 使 








这 些 条 件 可 
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图 用 于 调查 集合 性 质 的 常用 条 件 及 其 用 途 
条 件 表达 式 - 
COUNT (DISTINCT col) = COUNT (col) 没有 重复 的 值 
COUNT(*) = COUNT!(co)) 不 存在 NULL 


























COUNT(*) = MAX(col) 是 连续 的 编号 ( 起 始 值 是 1 ) 
COUNT(*) = MAX(col) ~ MIN(col) + 1 是 连续 的 编号 ( 起 始 值 是 任意 整数 ) 



































MIN(col) = MAX(col) 都 是 相同 值 ， 或 者 是 NULL 
MIN(col) * MAX(col) > 0 全 是 正 数 或 全 是 负数 

MIN(col) * MAX(col) < 0 的 最 大 值 是 正 数 ， 最 小 值 是 负数 
MIN(ABS(co)) = 0 最 少 有 一 个 是 0 

MIN(col - 常量 ) = -~ MAX(col - 常量 ) 的 最 大 值 和 最 小 值 与 指定 常量 等 距 









































|ocoil、9D9D|IODI 人 DID 一 






































上 面 的 1、4 和 5 我们 在 本 节 中 已 经 练习 过 了 ，2 和 3 在 1-4 节 中 也 使 
过 了 (4 是 将 3 一 般 化 而 得 到 的 )。 不 仅 限 于 这 些 简 单 的 条 件 ， 如 果 使 用 
CASE 表达 式 来 生成 特征 函数 ， 那 么 无 论 多 么 复杂 且 通 用 的 条 件 ， 我 们 都 
可 以 描述 ， 在 这 里 就 不 再 详细 解释 了 。 












































ee 

































































下 面 是 本 节 要 点 。 
1. 在 SQL 中 指定 搜索 条 件 时 ， 最 重要 的 是 搞 清楚 搜索 的 实体 是 

















































































































还 是 集合 的 元 素 。 

2. 如 果 一 个 实体 对 应 着 一 行 数据 一 那么 就 是 元 素 ， 所 以 使 用 WHERE 
手 甸 。 

3. 如 果 一 个 实体 对 应 着 多 行 数据 一 那么 就 是 集合 ， 所 以 使 用 HAVING 
子 句 。 

4. HAVING 子 句 可 以 通过 聚合 函数 (特别 是 极 值 函数 ) 针对 集合 指定 
各 种 条 件 。 

5. 如 果 通 过 casE 表达 式 生 成 特征 函数 ， 那 么 无 论 多 么 复杂 的 条 件 都 
可 以 描述 。 

















6. HAVING 子 句 很 强大 。 
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下 面 是 参考 资料 。 














. Joe Celko, 《SQL 解 惑 (第 2 版 )》( 人 民 邮 电 出 版 社 ，2008 年 ) 

关于 数列 缺失 编号 的 检查 ， 请 参考 “ 谜 题 57 间隔 一 一 版 本 1”。Joe Celko 
在 求 缺失 的 最 小 编号 时 采用 了 NOT IN， 但 是 为 了 解决 NULL 的 问题 并 且 
改善 性 能 ， 本 书 中 的 例子 改 用 了 NoT EXISTS。 还 有 ， 关 于 使 用 CASE 表 
达 式 生成 特征 函数 的 相关 技术 ， 可 以 参考 “ 谜 题 11 工作 顺序 ”。 

2. Joe Celko, Thinking in Aggregates ( DBAzine.com, 2005 年 ) 


=k 







































































(http://www.dbazine.com/ofinterest/oi-articles/celko18) 
这 篇 文章 是 主张 通过 HAVING 子 句 来 理解 SQL 的 面向 集合 思想 的 名 作 ， 
笔者 也 从 中 受到 了 不 少 启发 。 前 面 提 到 的 一 些 用 于 调查 集合 性 质 的 常用 
条 件 都 摘自 这 篇 文章 ， 笔 者 只 是 做 了 一 些 修改 。 本 节 开 头 引 用 的 Joe 
Celko 的 话 也 摘自 这 篇 文章 。 
3. 物理 学 的 卷 尾 猫 “划分 操作 ”( 2006 年 4 月 ) 
Chttp://hooktail.sub.jp/algebra/Klassierung/) 
物理 学 的 卷 尾 猫 是 一 个 致力 于 以 易 懂 的 语言 介绍 物理 学 相关 知识 的 项 
这 篇 文章 介绍 了 集合 中 划分 和 划分 操作 的 一 些 概念 ， 极 力 避 免 了 使 
用 复杂 的 数学 公式 ， 非 常 容易 理解 。 






















































































































































































@ 练 习题 1-10-1 : 单 重 集合 与 多 重 集合 的 一 般 化 
在 “ 单 重 集合 与 多 重 集合 ”部 分 ， 我 们 只 针对 material 一 个 字段 检查 



































了 集合 中 是 否 存在 重复 值 。 这 次 我 们 考虑 一 下 推 而 广 之 ， 针 对 多 个 字段 检 






































我 们 在 原来 的 表 中 加 上 “ 原 产 国 ” 这 样 一 个 字段 ， 作 为 测试 数据 。 

请 从 表 中 查 出 材料 和 原 产 国 两 个 字段 都 重复 的 生产 地 。 答 案 只 有 ( 锌 ， 
泰国 ) 重复 了 的 东京 。 对 于 名 古 屋 ， 如 果 只 看 材料 ， 那 么 “ 钢 ” 有 重复 ， 
上 且 是 因为 产地 分 别 是 智利 和 阿根廷 ， 所 以 应 该 被 排除 在 外 。 

提示 : 不 用 想 得 很 深 。 
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Materials2 


center( 生产 地 ) ”receive_date ( 入 库 日 期 ) material ( 材料 ) ”orgland( 原 产 国 ) 
2007-04-01 


2007-04-12 
2007-05-17 
2007-05-20 
2007-04-20 澳 大 利 
2007-04-22 南非 

2007-04-29 印度 

2007-03-15 玻 利 维 ; 
2007-04-01 智和 
2007-04-24 阿根廷 
2007-05-02 汪 智也 
2007-05-10 
2007-05-10 
2007-05-28 











































































































同 | 申 | 丫 | 巾 | 暑 


















































@ 练 习题 1-10-2 : 多 个 条 件 的 特征 函数 

接 下 来 再 练习 一 下 cASE 表达 式 的 特征 函数 和 HAVING 子 句 组 合 使 用 
的 技巧 。 做 个 稍微 难点 儿 的 题 吧 。 

我 们 使 用 下 面 这 样 一 张 存储 了 测试 成 绩 的 表 作为 测试 数据 
们 在 1-8 节 中 也 用 过 。 
























































这 张 表 我 


























TestScores 


student id ( 学 号 ID ) ， subject ( 科目 ) ， score ( 分 数 ) 
100 数学 100 
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这 张 表 中 每 个 学 生存 储 了 多 门 学 科 的 成 绩 。 在 1-8 节 中 ， 我 们 使 用 谓 
词 逻 辑 的 方法 思考 了 查询 满足 下 面条 件 的 学 生 的 SQL 语句 。 
































1. 数学 的 分 数 在 80 分 以 上 。 
2. 语文 的 分 数 在 50 分 以 上 。 


号 为 100 和 200 的 学 生 。 这 次 我 们 排除 掉 没 有 语文 成 绩 的 学 

















答案 是 学 
号 为 400 的 学 
请 试 着 用 


a 


HAVING 子 句 和 特征 函数 的 方法 解答 一 下 。 











© 186 





第 1 章 神奇 的 SOL 


了 | 让 SQL 飞 起 来 









忆 简 单 的 性 能 优化 
性 能 优化 对 数据 库 工程 师 来 说 是 一 个 重要 的 课题 。 本 节 将 介绍 一 些 只 需 调整 SQL 语句 就 能 实现 的 通 
用 的 优化 Tipso 





SQL 的 性 能 优化 是 数据 库 工 程 师 在 实际 工作 中 必须 面 对 的 重要 课题 
之 一 。 对 于 某 些 数据 库 工 程 师 来 说 ， 它 几乎 是 唯一 的 课题 。 实 际 上 ， 在 像 
Web 服务 这 样 需要 快速 响应 的 应 用 场景 中 ，SQL 的 性 能 直接 决定 了 系统 
是 否 可 以 使 用 。 

因此 ， 本 节 不 再 像 前 面 一 样 介绍 SQL 的 各 种 功能 的 应 用 技巧 ， 而 是 
各 重点 转向 SQL 的 优化 方面 ， 介 绍 一 些 使 SQL 执行 速度 更 快 、 消 耗 内 存 
更 少 的 优化 技巧 。 

严格 地 优化 查询 性 能 时 , 必须 要 了 解 所 使 用 数据 库 的 功能 特点 。 此 外 ， 
查询 速度 慢 并 不 只 是 因为 SQL 语句 本 身 ， 还 可 能 是 因为 内 存 分 配 不 佳 、 
文件 结构 不 合理 等 其 他 原因 。 因 此 本 节 即 将 介绍 的 优化 SQL 的 方法 未 必 
能 解决 所 有 的 性 能 问题 ， 但 是 确实 很 多 时 候 查 询 性 能 不 好 的 原因 还 是 SQL 
的 写法 不 合理 。 

本 节 将 尽量 介绍 一 些 不 依赖 具体 数据 库 实 现 ， 而 且 简 单 易 行 的 优化 方 
法 。 若 这 些 方法 能 使 大 家 在 平常 工作 中 感觉 到 SQL 执行 速度 慢 时 得 到 帮 
助 ， 笔 者 将 不 胜 荣幸 。 

























































































PR 

































































在 SQL 中 ， 很 多 时 候 不 同 代 码 能 够 得 出 相同 结果 。 从 理论 上 来 说 ， 
得 到 相同 结果 的 不 同 代码 应 该 有 相同 的 性 能 ， 但 遗憾 的 是 ， 查 询 优化 器 生 








同 习 症 芭 会 吴 jEShNEE F -; - ~ ADDF mm 二 言 六 外 邮 林 
图 灵 社 区 会 员 非洲 铜 (africancu@126.com) 专 享 尊重 版 权 
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成 的 执行 计划 很 大 程度 上 要 受到 代码 外 部 结构 的 影响 。 因 此 如 果 想 优化 查 
询 性 能 ， 必 须知 道 如 何 写 代码 才能 使 优化 器 的 执行 效率 更 高 。 








参数 是 子 查询 时 ， 使 用 EXISTS 代替 IN 

IN 谓词 非常 方便 ， 而 且 代码 也 容易 理解 ， 所 以 使 用 的 频率 很 高 。 但 是 
方便 的 同时 ，IN 谓词 却 有 成 为 性 能 优化 的 瓶颈 的 和 危险。 如果 代 码 中 大 量 
用 到 了 IN 谓词 ， 那 么 一 般 只 对 它们 进行 优化 就 能 大 幅度 地 提升 性 能 。 
如 果 IN 的 参数 是 “1，2，3” 这 样 的 数值 列表 ， 一 般 还 不 需要 特别 
注意 。 但 是 如 果 参 数 是 子 查 询 ， 那 么 就 需要 注意 了 。 
在 大 多 时 候 ，[NoT] IN 和 [NoT] EXISTS 返回 的 结果 是 相同 的 。 但 
是 两 者 用 于 子 查 询 时 ，EXISTS 的 速度 会 更 快 一 些 。 

我 们 先 看 个 例子 。 这 里 使 用 前 面 用 过 的 两 张 用 于 管理 员工 学 习 过 的 培 
训 课程 的 表 作为 测试 数据 。 




































































































































































































































































Class_A Class_B 






















































































我 们 试 着 从 Class_A 表 中 查 出 同时 存在 于 Class_B 表 中 的 员工 。 下 面 
两 条 SQL 语句 返回 的 结果 是 一 样 的 ， 但 是 使 用 EXISTs 的 SQL 语句 更 快 


一 些 。 

















-- 慢 
SELEECTOY 

FROM Class A 

WHERE id IN (SELECT id 


FROM Class B); 


-- 快 
SELECT * 
FROM Class A A 
WHERE EXISTS 
(SELECT * 
EROMICLass BoB 
WHERED A ee: 





© 188 





DD 


例如 ， 在 0racle 数据 库 品 








ph， 如 果 


我 们 使 用 了 建 有 索引 的 列 ， 那 么 




















即使 使 用 IN 也 会 先 扫 











苗 索 引 。 


此 外 ，PostgreSQL 从 版 本 7.4 起 
也 改善 了 使 用 子 查询 作为 IN 谓 

















词 参数 时 的 查询 速度 。 
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图 两 个 结果 都 如 下 所 示 























使 用 EXISTSs 时 更 快 的 原因 有 以 下 两 个 。 

















。 如 果 连 接 列 ( id ) 上 建立 了 索引 ， 那 么 查询 Class_B 时 不 用 查实 


际 的 表 ， 只 需 查 索引 就 可 以 了 。 


。 如 果 使 用 EXISTS， 那 么 只 要 查 到 一 行 数据 满足 条 件 就 会 终止 查询 ， 


不 用 像 使 用 IN 时 一 样 扫描 全 表 。 


在 这 一 点 上 NOT EXISTS 也 一 样 。 





当 IN 的 参数 是 子 查 询 时 ， 数 据 库 
































和 先 会 执行 子 查询 ， 然 后 将 结果 存储 




















在 一 张 临时 的 工作 表 里 ( 内 联 视 图 )， 然 后 扫描 整个 视图 。 很 多 情况 下 这 种 
做 法 都 非常 耗费 资源 。 使 用 EXISTSs 的 话 ， 数 据 库 不 会 生成 临时 的 工作 表 。 























看 起 来 更 加 一 目 了 然 ， 易 于 理解 。 因 此 
结果 ， 就 没有 必要 非得 改 成 EXISTS 了 。 





















































但 是 从 代码 的 可 读 性 上 来 看 ，IN 要 比 EXISTSs 好 。 使 用 IN 时 的 代码 

















， 如 果 确 信使 用 IN 也 能 快速 获取 











而 且 ， 最 近 有 很 多 数据 库 也 尝试 着 改善 了 IN 的 性 能 @。 也 许 未 来 的 
某 一 天 ， 无 论 在 哪个 数据 库 上 ，IN 都 能 具备 与 BXISTS 一 样 的 性 能 。 














参数 是 子 查询 时 ， 使 用 连接 代替 IN 











内 
请 
疏 

[ll 

















询 语 句 就 可 以 像 下 面 这 样 “ 扁 平 化 ”。 




















-- 使 用 连接 代替 IN 
SELECT A.id, A.name 








FROM Class A A INNER JOIN Class B B 


ON A.id = B.id; 


广 IN 的 性 能 ， 除 了 使 用 EXISTS， 还 可 以 使 用 连接 。 前 面 的 查 























这 种 写法 至 少 能 用 到 一 张 表 的 “id” 列 上 的 索引 。 而 且 ， 因 为 没有 了 





子 查 询 ， 所 以 数据 库 也 不 会 生成 中 间 表 


























而 且 ， 从 本 节 后 面 的 很 多 例题 也 可 以 看 
用 连接 更 合适 。 





























。 我 们 很 难说 与 EXISTS 相 比 哪个 


更 好 ， 但 是 如 果 没 有 索引 ， 那 么 与 连接 相 比 ， 可 能 EXISTSs 会 略 胜 一 筹 。 








出 ， 有 些 情况 下 使 用 EXISTSs 比 使 
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国 】 吉 免 排序 























与 面向 过 程 语言 不 同 ， 在 SQL 语言 中 ， 用 户 不 能 显 式 地 命令 数据 库 
进行 排序 操作 。 对 用 户 隐藏 这 样 的 操作 正 是 SQL 的 设计 思想 。 
但 是 , 这 样 并 不 意味 着 在 数据 库 内 部 也 不 能 进行 排序 。 其 实 正好 相反 ， 
在 数据 库 内 部 频繁 地 进行 着 暗中 的 排序 。 因 此 最 终 对 于 用 户 来 说 ， 了 解 都 
有 哪些 运算 会 进行 排序 很 有 必要 〈 从 这 个 意义 上 讲 ，“ 隐 藏 操作 ”这 个 目 
标的 实现 似乎 还 任重道远 )。 
会 进行 排序 的 代表 性 的 运算 有 下 面 这 些 。 





















































































































































GROUP BY 子 句 

。 ORDER BY 子 句 

。 聚合 函数 ( SUM、COUNT、AVG、MAX、MIN ) 
e DISTINCT 

。 集合 运算 符 (UNION、INTERSECT、EXCEPT ) 
。 窗口 函数 ( RANK、ROW_NUMBER 等 ) 



































排序 如 果 只 在 内 存 中 进行 ， 那 么 还 好 ; 但 是 如 果 内 存 不 足 因 而 需要 在 
硬盘 上 排序 ， 那 么 伴随 着 “ 吡 啦 吡 啦 ” 的 硬盘 访问 声 ， 排 序 的 性 能 也 会 急 
剧 恶化 《下 面 的 数据 可 能 个 太 准 确 …… 据 说 硬盘 的 访问 速度 比 内 存 的 要 慢 
上 100 万 倍 )。 因 此 ， 尽 量 避 免 《 或 减少 ) 无 谓 的 排序 是 我 们 的 目标 。 
























































灵活 使 用 集合 运算 符 的 ALL 可 选项 
SQL 中 有 UNION、INTERSECT、EXCEPT 三 个 集合 运算 符 。 


在 默认 的 使 用 方式 下 ,这些 运算 符 会 为 了 排除 掉 重 复数 据 而 进行 排序 。 









































SELECT * FROM Classo A 
UNION 
RICEE EROMGlasenes 
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如 果 不 在 乎 结果 中 是 否 有 重复 数据 ， 或 者 事先 知道 不 会 有 重复 数据 
请 使 用 UNION ALL 代替 UNION。 这 样 就 不 会 进行 排序 了 。 















































SELECT * FROM Class A 
UNION ALL 
SEEECTH* PROMICLassDe, 








田中 二 册 为 不 排除 重复 效 据 所 以 也 不 需要 进行 排序 
























































对 于 INTERSECT 和 EXCEPT 也 是 一 样 的 ， 加 上 ALL 可 选项 后 就 不 会 
进行 排序 了 。 

加 上 arz 可 选项 是 优化 性 能 的 一 个 非常 有 效 的 手段 ， 但 问题 是 各 种 
数据 库 对 它 的 实现 情况 参差 不 齐 。 下 表 中 汇总 了 目前 各 种 数据 库 的 实现 
情况 。 


































































































国人 林口 合 运 算 符 ALL 可 选项 的 实现 情况 


SQLServer PostgreSQL MySQL 


UNION 
INTERSECT 
EXCEPT 



































1. Oracle 使 用 MINUS 代 替 EBXCEPT 


2. MySQL 连 INTERSECT 和 EXCEPT 运 算 本 身 还 没有 实现 























上 面 这 张 表 从 侧面 展现 出 了 各 个 数据 库 厂商 对 标准 SQL 的 遵从 程度 ， 
很 有 意思 。DB2 果然 忠实 地 实现 了 全 部 功能 。 而 PostgreSQL 虽然 是 开 
源 软 件 ， 但 是 也 兼顾 到 了 所 有 细节 ， 很 符合 学 院 派 的 作风 。MySQL 和 
SQL Server 稍微 差 一 些 ，Oracle 很 重视 自己 的 个 性 。 人 们 很 容易 想 当 
然 地 以 为 所 有 的 数据 库 都 支持 ALL 可 选项 ， 但 事实 并 非 如 此 ， 请 注意 


se 
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使 用 EXISTS 代替 DISTINCT 
为 了 排除 重复 数据 ，DISTINCT 也 会 进行 排序 。 如 果 需 要 对 两 张 表 的 
连接 结果 进行 去 重 ， 可 以 考虑 使 用 EXISTS 代替 DISTINCT， 以 避免 排序 。 
































ltems SalesHistory 


item_no sale_date item no quantity 



























































我 们 思考 一 下 如 何 从 上 面 的 商品 表 Items 中 找 出 同时 存在 于 销售 记录 
表 SalesHistory 中 的 商品 。 简 而 言 之 ， 束 是 找 出 有 销售 记录 的 商品 。 

使 用 IN 是 一 种 做 法 。 但 是 前 面 我 们 说 过 ， 当 IN 的 参数 是 子 查 询 时 ， 
使 用 连接 要 比 使 用 IN 更 好 。 因 此 我 们 像 下 面 这 样 使 用 “item_no” 列 对 两 
张 表 进 行 连 接 。 


































































































SELECT I.item no 
FROM Items I INNER JOIN SalesHistory SH 
©NI temo Hemno 











忆 为 是 一 对 多 的 连接 ， 所 以 “item_no” 列 中 会 出 现 重 复数 据 。 为 了 
复数 据 ， 我 们 需要 使 用 DISTINCT。 











排除 


mh 
nm 


SELPCT DISTINCGI I emne 
FROM Items I INNER JOIN SalesHistory SH 
ON nemo Hemnoy 
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其 实 更 好 的 做 法 是 使 用 EXISTS。 














军 
讨 


SELECT item no 
EROMITEemeoE 
WHERE EXISTS 
(SELECT * 
FROM SalesHistory SH 
WHERE I.item no = SH.item no); 


























这 条 语句 在 执行 过 程 中 不 会 进行 排序 。 而 且 使 用 EXISTS 和 使 用 连接 
一 样 高 效 。 














在 极 值 函数 中 使 用 索引 ( MAX/MIN ) 

SQL 语言 里 有 MAX 和 MIN 两 个 极 值 函数 。 

使 用 这 两 个 函数 时 都 会 进行 排序 。 但 是 如 果 参 数字 段 上 建 有 索引 ， 则 
只 需要 扫描 索引 ， 不 需要 扫描 整 张 表 。 以 刚才 的 表 Items 为 例 来 说 ，SQL 
语句 可 以 像 下 面 这 样 写 。 







































































-- 这 样 写 需要 扫描 全 表 
SELECT MAX (item) 
FROM Items ; 


























-- 这 样 写 能 用 到 索引 
SELECT MAX (item no) 
FROM Items; 


姑 为 item_no 是 表 Items 的 唯一 索引 , 所 以 效果 更 好 。 对 于 联合 索引 ， 
只 要 查询 条 件 是 联合 索引 的 第 一 个 字段 ， 索 引 就 是 有 效 的 ， 所 以 也 可 以 对 
SalesHistory 的 sale_date 字段 使 用 极 值 函数 。 
这 种 方法 并 不 是 去 掉 了 排序 这 一 过 程 , 而 是 优化 了 排序 前 的 查找 速度 ， 
从 而 减弱 排序 对 整体 性 能 的 影响 。 




















站 
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能 写 在 WHERE 子 句 里 的 条 件 不 要 写 在 HAVING 子 句 里 
例如 ， 下 面 两 条 SQL 语句 返回 的 结果 是 一 样 的 。 





























人 t 











-- 聚合 后 使 用 HAVING 子 句 过 渡 

SELECT sale date, SUM(quantity) 
FROM SalesHistory 

GROUP BY salenidate 

HAVIENG® saleRdate 2007/ 0 00 











-- 聚合 前 使 用 WHERE 子 句 过 滤 

SELECT sale date, SUM(quantity) 
FROM SalesHistory 
WHEREESaeqaceEE 2007 T1000 
SROUEERNESSeEaaEe 








Saegdses sum(quantity) 


OO SO Oa Ey 

















但 是 从 性 能 上 来 看 ， 第 二 条 语句 写法 效率 更 高 。 原 因 通 常 有 两 个 。 第 
一 个 是 在 使 用 GROUP BY 子 句 聚合 时 会 进行 排序 ， 如 果 事 先 通 过 WHERE 子 
句 筛选 出 一 部 分 行 ， 就 能 够 减轻 排序 的 负担 。 第 二 个 是 在 WHERE 子 句 的 条 
件 里 可 以 使 用 索引 。HAVING 子 句 是 针对 聚合 后 生成 的 视图 进行 筛选 的 ， 
日 是 很 多 时 候 聚 合 后 的 视图 都 没有 继承 原 表 的 索引 结构 。 

































































Ts 





在 GROUP BY 子 句 和 ORDER BY 子 句 中 使 用 索引 

一 般 来 说 ，GROUP BY 子 句 和 ORDER BY 子 句 都 会 进行 排序 ， 来 对 行 
进行 排列 和 替换 。 不 过 ， 通 过 指定 带 索 引 的 列 作为 GROUP BY 和 ORDER 
BY 的 列 ， 可 以 实现 高 速 查 询 。 特 别 是 ， 在 一 些 数据 库 中 ， 如 果 操 作对 象 
的 列 上 建立 的 是 唯一 索引 ， 那 么 排序 过 程 本 身 都 会 被 省 略 掉 。 如 果 各 位 有 
兴趣 ， 可 以 确认 一 下 自己 使 用 的 数据 库 是 否 支 持 这 个 功能 。 






















































































加 0 真 的 用 到 索引 了 吗 


一 般 情 况 下 ， 我 们 都 会 对 数据 量 相对 较 大 的 表 建 立 索引 。 简 单 理解 起 
来 ， 索 引 的 工作 原理 与 C 语言 中 指针 数组 是 一 样 的 。 即 相 比 查找 复杂 对 象 
的 数组 ， 查 找 轻 量 的 指针 会 更 高 效 。 而 且 最 流行 的 B 树 索引 还 进行 了 一 些 
优化 ， 以 使 用 二 分 查找 来 提升 查询 的 速度 。 
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假设 我 们 在 一 个 叫 作 col_1 的 列 上 建立 了 索引 ， 然 后 来 看 一 看 下 面 这 
条 SQL 语句 。 这 条 SQL 语句 本 来 是 想 使 用 索引 ， 但 实际 上 执行 时 却 进行 
了 全 表 扫 描 。 很 多 时 候 ， 大 家 是 否 也 在 无 意识 间 就 这 么 写 了 呢 ? 






































在 索引 字段 上 进行 运算 


SELECT * 
FROM SomeTable 
WHERE ee 0 ed 

















人 们 普遍 认为 ，SQL 语言 的 主要 目的 不 是 进行 运算 。 但 是 实际 上 ， 数 
据 库 引擎 连 这 种 程度 的 转换 也 不 会 为 我 们 做 。 

把 运算 的 表达 式 放 到 查询 条 件 的 右 侧 ， 就 能 用 到 索引 了 ， 像 下 画 
写 就 OK 了 。 















































这 样 























WHERE col 1 > 100 / 1.1 

















同样 ， 在 查询 条 件 的 左 侧 使 用 函数 时 ， 也 不 能 用 到 索引 。 





SELECT * 
FROM SomeTable 
WHERE SURSTReol 二 1 1 Ss er 


















































如 果 无 法 避免 在 左 侧 进行 运算 ， 那 么 使 用 函数 索引 也 是 一 种 办 法 ， 但 
是 不 太 推 荐 随意 这 么 做 。 
使 用 索引 时 ， 条 件 表 达 式 的 左 侧 应 该 是 原始 字段 
请 牢记 ， 这 一 点 是 在 优化 索引 时 首要 关注 的 地 方 。 






































使 用 IS NULL 谓词 
通常 ， 索 引 字 段 是 不 存在 NULL 的 ， 所 以 指定 TS NULL 和 I 了 IS NoT 
NULL 的 话 会 使 得 索引 无 法 使 用 ， 进 而 导致 查询 性 能 低下 。 

















SELECT * 
FROM SomeTable 
> 
WHRRRUECCOTRETESNUDDY 
在 DB2 和 Oracle 中 ，IS NULL 条 一 


件 也 能 使 用 索引 。 这 也 许 是 因为 


它们 在 实现 时 为 wurr 赋 了 菜 个 关于 索引 字段 不 存在 NULL 的 原因 ， 简 单 来 说 是 NULL 并 不 是 值 。 非 
具有 特殊 含义 的 值 。 但 是 ， 这 个 


特性 不 是 所 有 数据 库 都 有 的 。 值 不 会 被 包含 在 值 的 集合 中 详情 请 参考 1-3 节 ) ®。 



































三 
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然而 ， 如 果 需 要 使 用 类 似 IS NoT NULL 的 功能 ， 又 想 用 到 索引 ， 那 
么 可 以 使 用 下 面 的 方法 ， 假 设 “col 1” 列 的 最 小 值 是 1。 












































--IS NOT NULL 的 代 埠 方案 
SELECT * 

FROM SomeTable 
WEIE RE oN 0 





























原理 很 简单 ， 只 要 使 用 不 等 号 并 指定 一 个 比 最 小 值 还 小 的 数 ， 就 可 以 
选 出 col_1 中 所 有 的 值 。 因 为 col 1 > NULL 的 执行 结果 是 unknown， 所 
以 当 “col 1” 列 的 值 为 NULL 的 行 不 会 被 选择 。 不 过 ， 如 果 要 选择 “ 非 
NULL 的 行 ”% 正确 的 做 法 还 是 使 用 Ts NoT NULL。 上 面 这 种 写法 意思 有 些 
容易 混淆 ， 所 以 笔者 也 不 太 推荐 ， 请 只 在 应 急 的 情况 下 使 用 。 































































































使 用 否定 形式 
下 面 这 几 种 否定 形式 不 能 用 到 索引 。 
































0 x 
®S |= 


® NOT IN 





























姑 此 ， 下 面 的 SQL 语句 也 会 进行 全 表 扫 描 。 


SELECT * 
FROM SomeTable 
WHERE [ea O00; 


使 用 OR 

在 col 1 和 col 2 上 分 别 建立 了 不 同 的 索引 ， 或 者 建立 了 (col 1， 
col_2) 这 样 的 联合 索引 时 , 如果 使 用 oR 连接 条 件 , 那么 要 么 用 不 到 索引 ， 
要 么 用 到 了 但 是 效率 比 AND 要 差 很 多 。 








i 





















































SELECT * 
FROM SomeTable 
WHEREOSo 00 
SR conn2 ave 
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如 果 无 论 如 何 都 要 使 
索引 的 话 更 新 数据 时 的 | 


























使 用 联合 索引 时 ， 列 的 顺序 错误 


假设 存在 这 样 顺 序 





] OR， 那 么 有 一 种 办 法 是 位 图 索引 。 但 是 这 种 
性 能 开销 会 增 大 , 所 以 使 用 之 前 需要 权衡 一 下 利 次 。 








的 一 个 联合 索引 “col 1, col 2，col 3”。 





这 时 ， 指 定 条 件 的 顺序 就 很 重要 。 


Spiren 

O SELECT * FROM Some 
基 SELECT * FROM Some 
x SELECT * FROM Some 
x SELECT * FROM Some 


FROM SomeTable WHEI 








Table WHERE col 2 = 100 AND 
Table WHERE col 2 = 100 AND 








RE Col 1 = 10 AND col 2 = 100 AND col 3 = 500; 
Table WHERE col 1 = 10 AND col 2 = 100，; 
Table WHERE col 1 = 10 AND col 3 = 500 ; 


Co 5 00 
comnmt lo 


联合 索引 中 的 第 一 列 (col_1) 必须 写 在 查询 条 件 的 开头 ， 而 且 索 引 
中 列 的 顺序 不 能 颠倒 。 有 些 数据 库 里 顺序 颠倒 后 也 能 使 用 索引 ， 但 是 性 能 
还 是 比 顺序 正确 时 差 一 些 。 
条 件 里 列 的 顺序 与 索引 一 致 ， 可 以 考虑 将 联合 索引 





























如 果 无 法 保证 查询 
拆 分 为 多 个 索引 。 















































使 用 LIKE 谓词 时 ， 





x SELECT * FROM 
x SELECT * FROM 
O SELECT * FROM 

















进行 默认 的 类 型 转换 


图 对 char 类 型 的 “col_1 




















使 用 LIKE 谓词 进行 后 方 一 致 或 中 间 一 致 的 匹配 














只 有 前 方 一 致 的 匹配 才能 用 到 索引 。 











SomeTable WHERE col 1 
SomeTable WHERE col 1 
SomeTable WHERE col 1 


” 列 指 定 条 件 的 示例 


x SELECT * FROM SomeTable WHERE col 1 = 10; 
@ SEENCGIEROM Somerable WieEReE co 0 


O SELECT * FROM SomeTable WHE 





LIKE '%a'; 
LIKE %ag'; 
LIKE 'a%'; 


RE econ easm( lo AS coal(2)e 





默认 的 类 型 转换 不 仅 会 增加 额外 的 性 能 开销 ， 
可 以 说 是 有 百 害 而 无 一 利 。 虽 然 这 样 写 还 不 至 于 出 
在 需要 类 型 转换 时 显 式 地 进行 类 型 转换 吧 ( 别 忘 了 转换 要 写 在 条 件 表达 式 

















的 右边 )。 























还 会 导致 索引 不 可 用 ， 
错 , 但 还 是 不 要 嫌 麻 烦 ， 
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中 减少 中 间 表 
在 SQL 中, 子 查 询 的 结果 会 被 看 成 一 张 新 表 , 这 张 新 表 与 原始 表 一 样 ， 
可 以 通过 代码 进行 操作 。 这 种 高 度 的 相似 性 使 得 SQL 编程 具有 非常 强 的 
灵活 性 ， 但 是 如 果 不 加 限制 地 大 量 使 用 中 间 表 ， 会 导致 查询 性 能 下 降 。 

频繁 使 用 中 间 表 会 带 来 两 个 问题 ， 一 是 展开 数据 需要 耗费 内 存 资源 ， 
二 是 原始 表 中 的 索引 不 容易 使 用 到 特别 是 聚合 时 )。 因 此 ， 尽 量 减少 中 
间 表 的 使 用 也 是 提升 性 能 的 一 个 重要 方法 。 






































一 













































































灵活 使 用 HAVING 子 句 
对 聚合 结果 指定 筛选 条 件 时 ， 使 用 HAVING 子 句 是 基本 原则 。 不 习惯 
使 用 HAVING 子 句 的 数据 库 工程 师 可 能 会 倾向 于 像 下 面 这 样 先生 成 一 张 中 
间 表 ， 然 后 在 WHERE 子 句 中 指定 划 选 条 件 。 



























































SELECT * 

FROM (SELECT sale date, MAX(quantity) AS max qty 
FROM SalesHistory 

GROUP BY sale date) TMP | 没 用 的 中 间 表 

WHERE max qty >= 10; 

















scienmdaee oeEngEy 

O00 .0 
710=03 32 
07-10-04 区 术 | 

















然而 ， 对 聚合 结果 指定 筛选 条 件 时 不 需要 专门 生成 中 间 表 ， 像 下 面 这 
样 使 用 HAVING 子 句 就 可 以 。 























SELECT sale date, MAX (quantity) 
FROM SalesHistory 

GROUP BYsadendate 

HAVING MAX (quantity) >= 10; 


HAVING 子 句 和 聚合 操作 是 同时 执行 的 ， 所 以 比 起 生成 中 间 表 后 再 执 
行 的 WHERE 子 句 ， 效 率 会 更 高 一 些 ， 而 且 代 码 看 起 来 也 更 简洁 。 
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需要 对 多 个 字段 使 用 IN 谓词 时 ， 将 它们 汇总 到 一 处 

SQL-92 中 加 入 了 行 与 行 比较 的 功能 。 这 样 一 来 ， 比 较 谓 词 =、<、> 
和 IN 谓词 的 参数 就 不 能 是 标量 值 ， 而 应 是 值 列表 了 。 

我 们 来 看 一 下 下 面 这 道 例题 。 这 里 对 多 个 字段 使 用 了 IN 谓词 ,“id” 
列 是 主键 。 













































































SOLECrhiaq scate ely 
FROM Addressesl1 Al 
WHERE state IN (SELECT state 
FROM Addresses2 A2 
WHERE Al.id = A2.id) 
AND eity TN (SELERCT onty 
FROM Addresses2 A2 
WHRERE SA A 




















这 段 代码 中 用 到 了 两 个 子 查询 。 但 是 ， 如 果 像 下 面 这 样 把 字段 连接 寿 
一 起 ， 那 么 就 能 把 逻辑 写 在 一 处 了 。 

















本 








SEEECT YY 
FROM Addressesl Al 
WHERE id || state || city 
NMSEneem el aacell ey 
FROM Addresses2 A2); 























这 样 一 来 ， 子 查询 不 用 考虑 关联 性 ， 而 且 只 执行 一 次 就 可 以 。 此 外 ， 
如 果 所 用 的 数据 库 实现 了 行 与 行 的 比较 ， 那 么 我 们 也 可 以 像 下 面 这 样 ， 在 
IN 中 写 多 个 字段 的 组 合 。 
































SELECT * 
FROM Addressesl1 Al 
WHERE (id, state, city) 
INO(SELECT va tate eley 
FROM Addresses2 A2); 














这 种 方法 与 前 面 的 连接 字段 的 方法 相 比 有 两 个 优点 。 一 是 不 用 担心 连 
接 字 段 时 出 现 的 类 型 转换 问题 ， 二 是 这 种 方法 不 会 对 字段 进行 加 工 ， 因 此 
可 以 使 用 索引 。 












































先进 每 








因此 这 个 技巧 如 





1-5 节 提 到 过 ， 


连接 再 进行 聚合 


x 
聚合 


连接 和 


同时 











生 中 间 表 。 原 因 是 ， 从 集合 运算 的 





连接 表 双 方 是 一 对 
而 且 ， 因 为 在 





对 




















合理 地 使 用 视图 


是 ， 如 果 没 有 经 过 深入 思考 就 定义 复杂 的 视图 ， 可 能 会 带 来 
图 的 定义 语句 
非常 慢 。 


题 





近 越 来 越 多 的 数据 库 为 了 解 
(materialized view ) 等 技术 。 当 视图 








对 人 硬盘， 
或 者 使 用 
使 用 索引 ， 


。 特别 是 视 
行 速度 也 会 变 得 

















以 使 用 。 
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视图 


是 非常 方便 的 工 








tk， 相 信 








日 常 工作 























。 聚 合 函 








很 多 人 都 在 频繁 地 使 用 。 
巨大 的 性 


使 用 时 ， 先 进行 连接 操作 可 以 避免 产 
和 度 来 看 ， 连 接 做 的 是 “乘法 运算 ”。 
多 的 关系 时 ,连接 运算 后 数 扩 
民 多 设计 中 多 对 多 的 关系 都 可 以 分 解 成 两 个 一 对 多 的 关系 ， 
E 大 部 分 情况 下 都 可 





是 的 行 数 不 会 增加 。 








但 


A 
乳品 














数 (AVG、COUNT、SUM、MIN、MAX ) 


。 集合 运算 符 ( UNION、INTERSECT、EXCEPT 等 ) 


一 般 来 说 ， 要 格外 注意 避免 在 视图 中 进 





决 视图 
的 定义 变 得 复杂 时 ,可 以 考虑 使 用 一 下 。 





的 这 





行 聚 合 操作 后 需 


中 包含 以 下 运算 的 时 候 ，SQL 会 非常 低 效 ， 执 





要 特别 注意 。 


文 个 缺点 ， 实 现 了 物化 视图 























点 介绍 了 SQL 性 能 优化 方 国 















































其 实 优化 的 核心 思想 只 有 





基 实 不 上 只 是 数 志 


居 库 和 SQL， 计 算 机 世界 里 容易 成 为 性 能 























访问 

















ss 





里 解 这 


本 质 。 


抑或 是 避免 中 间 


也 就 是 文件 系统 的 访问 ( 
速度 更 快 的 硬盘 等 方法 来 提升 性 能 
表 的 使 用 ， 都 是 为 了 减少 对 硬盘 的 访问 。 











因此 个 人 计算 机 还 可 








)。 不 管 











虽然 这 里 列 2 
个 ， 那 就 是 找 出 性 能 





瓶颈 所 在 ， 











下 颈 的 也 是 





以 通过 





增加 内 存 ， 


是 减少 排序 还 是 


= = 
请 务 
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书 名 为 『SE 四 无 邮 O 0racle 





于 了 一 二 > 分 /\yR7y 夕 | 尚 


无 





h 文 版 。 一 一 编者 注 
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下 面 是 本 节 要 点 。 

1. 参数 是 子 查 询 时 ， 使 用 EXISTSs 或 者 连接 代替 IN。 

2. 使 用 索引 时 ， 条 件 表达 式 的 左 侧 应 该 是 原始 字段 。 

3. 在 SQL 中 排序 无 法 显 式 地 指定 ， 但 是 请 注意 很 多 运算 都 会 暗中 进 
行 排序 。 

4. 尽量 减少 没 用 的 中 间 表 。 




























































































如 果 想 了 解 关于 性 能 优化 的 更 高 级 的 内 容 ， 请 参考 下 面 的 资料 。 














1. Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人 民 邮 电 出 版 社 ，2013 年 ) 
在 第 39 章 “ 优 化 SQL” 里 ， 该 书 针对 不 依赖 具体 数据 库 实现 的 SQL 优 
化 方法 ， 从 基本 思想 到 高 级 技巧 进行 了 全 面 的 介绍 。 
2. 后 藤 孝 宪 、 名 和 满 、 五 岛 和 彦 、 井 原 秀 树 ,《 系统 工程 师 的 Oracle 性 能 
优化 指南 》@ ( SoftBank Publishing，2003 年 ) 

这 是 一 本 全 面 总 结 性 能 优化 要 点 的 好 书 。 虽然 书 名 中 有 Oracle， 但 也 包 
含 了 许多 不 依赖 具体 数据 库 实现 的 通用 的 观点 和 技巧 ， 强 烈 推 荐 。 
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SQL 编程 方法 


也 确立 SQL 的 编程 风格 


在 SQL 中 ， 标 准 的 编程 风格 还 不 成 熟 ， 也 没有 确立 统一 的 编程 方针 。 本 节 将 面向 未 来 ， 思 考 真正 合 
理 的 SQL 编程 风格 ， 并 提出 笔者 个 人 的 想法 , 望 有 抛砖引玉 之 效 。 





代码 要 清晰 ， 不 要 为 了 “效率 ”牺牲 可 读 性 。 
一 一 Kernighan & Plauger, 《编程 格调 ?@ 


高 博 、 徐 张 宁 译 ， 人 民 邮 电 出 版 
社 ，2015 年 。 














在 编程 的 世界 里 ， 有 很 多 追求 各 种 高 超 技巧 的 研究 领域 。 但 是 除 此 之 
外 , 还 有 重视 代码 的 可 读 性 ， 从 提高 开发 效率 的 角度 研究 编程 风格 的 领域 。 

随 着 编程 语言 从 注重 “更 容易 让 机 器 理解 ”的 低级 语言 《如 机 器 语言 
或 者 汇编 语言 等 ) 向 “更 容易 让 人 类 理解 ”的 高 级 语言 发 展 ， 人 们 对 “ 编 
程 语言 应 该 是 一 种 人 类 可 以 读 得 懂 、 写 得 出 的 语言 ”这 样 的 观点 越 来 越 认 
同 ， 于 是 从 认 知 心理 学 的 角度 研究 编程 风格 的 领域 应 运 而 生 。 认 知心 理学 
听 起 来 很 高 深 , 但 是 通俗 来 讲 ,就 是 改变 “能 跑 起 来 就 行 ”““ 效 率 才 是 一 切 ” 
这 样 的 偏执 态度 ， 去 认真 地 思考 如 何 写 出 任何 人 看 了 都 觉得 简单 明了 ， 而 
且 错 误 很 少 的 代码 一 一 这 其 实 也 是 一 种 非常 普 裔 的 常识 。 应 该 有 不 少 人 听 













































































说 过 KISS 这 一 非常 有 名 的 标语 吧 @。 
英文 Keep It Sweet & Simple 的 i 
at 我 们 举 个 简单 的 例子 ， 下 面 两 张 卡片 上 各 画 了 几 个 圆圈 ， 哪 个 更 容易 























Simple, Stupido 二 
数 清楚 呢 ? 





OO OO 
CD 0 
OO C7 
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两 者 表达 的 信息 都 是 “5 个 圆圈 ” 但 是 ， 可 能 大 多 数 人 都 认为 右边 
的 更 容易 数 清楚 。 原 因 非 常 简单 。 因 为 我 们 通过 小 时 候 玩 的 扑克 牌 或 者 般 
子 ( 以 及 麻将 ) 已 经 记 住 了 “这 个 形状 表示 5”。 看 到 右边 的 卡片 时 ， 我 们 
会 不 以 数字 而 以 图 形 的 方式 来 进行 模式 识别 。 像 这 样 通过 图 形 来 帮助 识别 
的 示例 也 被 应 用 在 了 常见 的 各 种 交通 标志 ， 以 及 演讲 资料 等 地 方 。 

其 实 ， 确 立 统一 的 编程 风格 追求 的 也 是 相同 的 效果 。 特 别 是 在 大 型 项 
目 中 ， 由 于 经 常 需要 阅读 别人 的 代码 ， 所 以 这 时 的 编程 行为 就 像 是 一 种 沟 
通 方式 。 因 此 ， 对 编程 风格 的 研究 也 可 以 看 成 是 对 提高 系统 开发 中 沟通 效 
率 的 方法 的 研究 (因此 在 只 有 一 个 人 编程 的 项 目 中 ， 很 难 注意 到 代码 风格 
的 重要 性 )。 

一 方面 ， 这 个 领域 的 研究 为 编程 的 世界 带 来 了 重要 的 启发 。 在 主流 的 
下 向 过 程 语 言 领域 ， 出 现 了 由 Kernighan 和 Pike 编写 的 《程序 设计 实践 》， 
以 及 由 Kernighan 和 Plauger 编写 的 《编程 格调 》 等 经 典 名 车。 此 外 ， 编 
程 风 格 的 研究 也 在 用 户 界面 的 领域 也 发 挥 着 重要 作用 。 

另 一 方面 ， 数 据 库 领 域 还 远 没 有 发 展 到 开始 关注 编程 风格 的 阶段 。 事 
实 上 ，SQL 作为 一 种 非 过 程式 语言 ， 一 直 以 来 都 不 被 当成 主流 ， 因 此 不 像 
掉 向 过 程 语言 一 样 有 着 丰富 的 积累 ， 而 且 事实 上 ， 人 们 也 尚未 认识 到 应 该 
对 SQL 这 门 语言 进行 那么 深入 的 研究 。 

但 是 ， 最 近 几 年 SQL 也 实现 了 一 些 高 级 的 功能 ， 因 而 人 们 也 渐渐 注 
意 到 了 它 的 强大 实力 。 可 以 预见 ， 未 来 SQL 能 实现 的 处 理会 越 来 越 多 、 
越 来 越 复杂 ， 与 此 同时 代码 也 会 变 得 越 来 越 复 杂 。 因 此 本 节 的 目的 在 于 抛 
砖 引 玉 ， 为 确立 未 来 的 数据 库 工程 师 可 能 会 需要 的 编程 风格 而 提出 笔者 个 
人 的 想法 。 
















































































































































































































































































































































































名 字 和 意义 

概括 地 说 ， 人 类 对 “无 意义 ”很 容易 感到 不 知 所 措 。 我 们 每 天 都 想 要 
从 交谈 、 工 作 ， 乃 至 人 生 中 找 点 什么 意义 出 来 。 如 果 生 活 中 到 处 充斥 着 各 
种 无 意义 的 事情 ， 人 的 精神 就 会 受到 非常 不 良 的 影响 。 不 善于 处 理 无 意义 






























































关于 这 部 分 内 容 ， 请 参考 2-4 节 。 
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的 事情 《或 者 不 确定 的 事情 ) 正 是 人 类 的 一 个 特点 。 























关系 数据 库 在 各 类 系统 ! 





获得 广泛 支持 的 最 重要 的 原因 ， 就 在 于 它 放 








弃 了 “地 址 ”这 一 无 意义 的 








东西 9。 放弃 地 址 ， 留 下 了 “名 称 ” 名 称 既 





包括 用 来 指 代 具 体 东 西 的 固有 名 称 ， 也 包括 用 来 指 代 概念 或 者 集合 的 一 般 
名 称 。 就 像 代码 和 标记 (flag) 一 样 ， 乍 一 看 不 像 是 名 称 的 东西 ， 从 指 代 
概念 或 者 集合 的 意义 上 来 讲 也 属于 一 般 名 称 的 范畴 。 例 如 指 代 “ 男 ”“ 女 ” 





这 种 集合 的 性 别 标记 ， 指 代 





























“感冒 ” “ 星 牙 ” 等 概念 的 疾病 编号 ， 都 是 一 
































般 名 称 。 与 此 相反 ， 地 址 没有 指 代 任何 具有 实际 意义 的 概念 或 者 事物 。 
既然 好 不 容易 构建 了 所 有 名 字 都 有 意义 的 数据 库 世 界 ， 就 不 会 再 犯 独 


















































自 引 入 无 意义 的 符号 这 样 愚 春 
命名 时 都 请 做 到 名 副 其 实 。 











量 的 错误 了 。 对 于 列 、 表 、 索 引 ， 以 及 约束 ， 
绝对 不 要 使 用 A、AA， 或 者 idx_123 这 样 无 














意义 的 符号 。 特 别 需要 注意 的 是 , 如 果 没 有 为 索引 和 约束 显 式 地 指定 名 称 ， 
DBMS 就 会 自动 为 之 分 配 随机 的 名 称 ， 这 也 是 应 该 避免 的 。 












































还 有 人 很 认真 地 为 真实 的 表 命 名 ， 但 是 对 代码 中 出 现 的 内 联 视图 命名 
却 很 随意 。 但 是 既然 用 到 了 内 联 视 图 ， 一 般 来 说 代码 还 是 相当 复杂 的 ， 所 






































以 也 有 必要 认真 地 为 内 联 视图 命名 。 


















































命名 时 允许 的 字符 有 以 下 3 种 。 


。 英文 字母 
。 阿拉 伯 数 字 
。 下划线 “_” 








这 些 并 非 由 笔者 个 人 决 
此 之 外 ， 各 个 数据 库 实现 中 可 



































0 而 是 由 标准 SQL 定义 的 字符 集合 。 除 
还 加 入 了 $、#、@ 等 特殊 符号 ， 以 及 汉 


字 这 样 2 字 节 的 文字 ， 但 笔 RE a 因为 这 样 写 出 的 代码 可 





移植 性 不 好 ， 和 


























Bug。 还 有 ， 标 准 SQL 中 规定 名 称 的 第 一 个 


























字符 应 该 是 英文 字母 ， 这 一 点 我 们 应 该 遵守 。 如 果 像 "Primary” 这 样 用 双 
引号 扩 起 来 ， ee SQL 保留 字 来 解析 ， 但 是 这 种 写法 也 


可 能 带 来 无 谓 的 混乱 ， 所 以 请 


























尽量 避免 。 




















属性 和 列 





我 们 时 不 时 地 会 遇 到 一 个 列 包含 多 个 意义 的 表 的 设计 。 
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例如 ， 对 于 存储 了 “年 份 不 同 格式 就 不 同 的 报表 ”这 类 值 的 表 ， 格 式 
切换 的 时 间 点 不 同 , 某 一 列 中 存储 的 值 的 意义 就 会 发 生变 化 。 还 有 一 类 表 ， 
使 用 某 一 列 去 管理 多 种 编号 〈 都 道 府 县 编号 或 客户 编号 等 )， 也 属于 这 种 
设计 。 

这 种 设计 的 基础 思想 是 “根据 位 置 调 用 数据 ”但 是 在 关系 数据 库 的 
世界 中 ， 这 种 设计 是 明确 禁止 的 。 在 数据 库 中 ， 列 代表 的 是 “属性 ”， 
此 应 该 具有 一 贯 性 。 
有 些 时 候 指 代 的 是 年 龄 ， 有 些 时 候 指 代 的 是 体重 ， 还 有 一 些 时 候 指 
代 …… 像 这 种 列 的 含义 随 条 件 发 生变 化 的 设计 会 给 写 代 码 增加 困难 ， 而 且 
连 列 的 名 称 都 会 很 难 起 ， 所 以 最 好 不 要 这 样 做 。 


































































































































































































注释 是 编程 风格 中 一 个 比较 有 争议 的 话题 。 有 些 人 极力 主张 必须 要 添 
加 注释 ， 相 反 也 有 人 认为 “注释 只 会 使 代码 的 可 读 性 降低 ， 因 此 努力 方向 
应 该 是 把 代码 写 得 不 需要 注释 也 能 看 懂 ”。 

笔者 认为 ， 不 管 其 他 语言 怎么 样 ， 就 SQL 而 论 ， 最 好 还 是 写 注释 。 
这 样 说 主要 有 两 个 原因 : 一 个 是 ，SQL 是 声明 式 语 言 ， 即 使 表达 同样 的 处 
理 过程 ， 逻 辑 仍 然 比 面向 过 程 语言 凝练 得 多 ; 男 一 个 是 ，SQL 很 难 进行 分 
步 的 执行 调试 。 分 析 代 码 时 主要 需要 进行 桌面 调试 。 

注释 的 写法 有 以 下 两 种 。 








































































































-- 单行 注释 
-- 从 SomeTable 中 查询 col 1 
SELECT GO 

FROM SomeTable; 














/* 

多 行 注释 

从 SomeTable 中 查询 col 1 
*/ 


SELECT Gol 
FROM SomeTable; 
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很 多 人 都 知道 “--” 这 种 单行 注释 的 写法 ， 其 实 我 们 还 能 像 C 语言 
或 Java 语言 一 样 通过 “/* */” 去 写 多 行 注 释 ， 不 过 这 一 点 很 多 人 都 不 知 
道 。 这 种 写法 不 仅 可 以 用 来 添加 真正 的 注释 ， 也 可 以 用 来 注释 掉 代 码 ， 非 
常 方 便 ， 请 灵活 应 用 。 
此 外 ，SQL 语句 中 不 能 有 空 行 ， 却 可 以 像 下 面 这 样 加 入 注释 。 






















































































SELiCreconnl 
FROM SomeTable; 
WHERE Coll = 'a! 
AND col 2 = "hb 
-- 下 面 的 条 件 用 于 指定 col_3 的 值 是 'c' 或 者 'qd' 
ANDEG Ol HN ea) 












































需要 把 揉 在 一 起 难以 阅读 的 条 件 分 割 成 有 意义 的 代码 块 时 ， 比 如 必须 
往 WHERE 子 句 中 写 很 多 条 件 的 时 候 ， 这 种 写法 很 方便 。 注 释 也 可 以 与 代码 
在 同一 行 。 


























SEEECTEc O/T -- 从 SomeTable 中 查询 col_1 
FROM SomeTable; 








希望 大 家 在 编程 过 程 中 都 能 尽量 详细 地 加 上 注释 。 




















缩 进 

代码 难以 阅读 的 原因 里 ， 也 许 排 在 第 一 位 的 是 没有 进行 缩 进 〈 排 在 第 
二 位 的 是 没有 对 长 代码 划分 模块 ， 所 有 的 都 揉 在 一 起 )。 

特别 是 编程 的 初学 者 ， 他 们 不 了 解 缩 进 的 重要 性 ， 写 出 来 的 代码 每 
行 都 从 行 首开 始 。 如 果 是 练习 用 的 小 的 程序 ， 即 使 不 缩 进 也 不 至 于 带 来 混 
乱 ， 因 此 这 样 也 没什么 不 可 以 。 但 是 对 于 专业 的 工程 师 来 说 ， 如 果 写 代码 
没有 缩 进 意识 就 不 能 容 妈 了。 下 面 是 笔者 觉得 好 和 坏 的 示例 。 
































































































































-- V 好 的 示例 

ae Te 二 

CO 

Col 3 

下 
FROM tbl A 

WHEREYCOLTET= 

AND col 2 = 


oy 





( SELECT MAX(col 2) 
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从 上 面 “好 的 示例 ”中 我 们 首先 可 以 看 到 , 子 查 询 的 代码 缩 进 了 一 层 。 
请 牢记 这 个 规则 。 子 查询 这 个 名 称 的 开头 是 “ 子 ” 这 就 说 明 它 是 低 一 层 

然后 ， 在 SELECT 子 多 和 GROUP BY 子 句 中 指定 多 列 时 ， 也 需要 缩 进 
一 层 。 缩 进 之 后 ,“ 子 名 ”的 代码 块 就 变 得 很 清晰 ， 更 方便 阅读 。 如 果 不 
想 让 代码 的 行 数 增加 得 太 多 ， 也 可 以 每 行 写 3 列 或 5 列 ， 或 者 根据 具体 含 
义 汇总 多 列 进行 换行 。 

在 上 面 “ 坏 的 示例 ”中 ，GROUP BY 子 句 之 前 没有 进行 换行 ， 这 种 写 
法 也 不 太 好 。SQL 中 sELECT、FROM 等 语句 都 有 着 明确 的 作用 ， 请 务必 以 
这 样 的 单位 进行 换行 。 这 里 再 说 点 儿 细节 ， 笔 者 认为 ， 比 起 这 种 所 有 关 
键 字 都 顶 格 左 齐 的 写法 ，@ 这 种 让 关键 字 右 齐 的 写法 更 好 。 
QO 左 齐 





WHERE 
GROUP BY 
HAVING 
ORDER BY 


原因 是 紧 接着 的 列 名 或 表 名 的 位 置 也 能 对 齐 ， 代 码 更 易 读 
看 个 人 喜好 ， 仅 供 参 考 )。 








不 管用 什么 语言 编程 者 一样， 代码! 
点 都 不 留 ， 所 有 的 代码 都 紧凑 到 一 起 ， 代 码 的 逻辑 上 
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、 


这 


a 


元 





A 








个 























给 阅读 的 人 带 来 额外 负担 。 





-- V 好 的 示例 

SEDECTO CON 
EROMOIEDIA A IB 

WHERE ( coll se EON OR AAC ol EN 
ANDA co ep eco 

-- x 坏 的 示例 

SELECEeonnl 
FROM tbl A A,tbl BB 











需要 适当 ] 


地 留 一 些 空 格 。 如 果 一 
元 就 会 不 明确 ， 也 会 




















Em Men Ye 


WHERE (A.col 1>=100 OR A.col 2 IN ('a','b')) 


AND A.col 3=B 


从 “ 坏 的 示例 ”: 


-EOL ah 








可 以 看 出 








?9 











因为 没有 添加 空格 , 所 以 A.col_1>=100 





和 A.col_3=B.col_3 这 样 的 语句 看 起 来 就 像 是 一 个 要 素 ， 非 常 不 易 阅 读 。 


虽然 不 加 空格 也 不 会 导致 语法 错误 ， 但 是 适当 地 加 入 空格 后 
区 分 出 各 个 要 素 ， 读 起 来 更 加 直观 一 些 。 添 加 空格 的 寻 
放 


点 就 能 做 到 ， 所 以 


大 水 与 





此 在 编程 中 ， 也 有 
的 习惯 。 








英文 中 需要 强 1 





能 够 明确 地 
稍微 留心 一 





所 











》 
王 
女 





ej 


友情 只 














大 家 从 平时 前 


周明 人] 











要 的 话 时 ， 一 般 会 使 用 斜体 或 者 大 写字 母 。 


F 始 养 成 好 习惯 吧 。 











大 














村 


型 














要 的 语句 使 / 











目 大 写字 母 ， 不 习 


到 





的 语句 使 用 小 写字 母 


女 


在 SQL 里 ， 关 于 应 该 如 何 区 分 使 用 大 小 写字 母 有 着 不 成 文 的 约定 : 























关键 字 使 








j 大 写字 母 ， 列 名 和 表 名 使 























] 小 写字 母 (也 有 一 些 人 习惯 只 将 单 
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注 @ 词 的 首 字母 大 写 8)。 很 多 图 书 也 都 是 这 样 的 。 笔 者 经 常 看 到 有 些 人 写 出 
例如 像 PlayStation、McDonald 这 
半 的 写法 ， 大 写字 母 看 起 来 就 像 ”的 SQL 语句 全 部 使 用 大 写字 母 , 或 者 全 部 使 用 小 写字 母 , 真心 感觉 不 舒服 。 
骆驼 的 峰 ， 因 此 也 被 称 为 驼峰 命 
名 法 。 这 种 写法 的 好 处 是 不 用 空 ee S 
由 也 能 区 分 单词 ， 因 此 在 计算 机 | 大 小 号 有 区 分 ， 甸 读 
世界 里 很 常用 ， 例 如 Java 语言 中 SHENRCFEEOTRT econ co 
类 的 命名 。 COUNT (*) 
FROM tbl A 
WHERE col 1 = "al 
AND col 2 = ( SELECT MAX(col 2) 
FROM tbl B 
WHERES co 000) 
GROUEDBYE Co OZ com, 
-- Xx 大 小 写 没 有 区 分 ， 难 读 : 全 是 小 写 
Select Col com2 co 
count (*) 
Fomine 
whene eo a 
angdeeol2 seleoe meleoun) 
em ED 
WiieregecolEsE = 0000) 
group bye ecole ool eol 
-- x 大 小 写 没 有 区 分 ， 难 读 ; 全 是 大 写 
Soceuec ao cor 
COUNT (*) 
FROM TBL A 
WHERE COL 1 = 'A!' 
AND COL 2 = ( SELECT MAX(COL 2) 
FROM TBL B 
NEERERECOTRESEE= 000) 
GROUPEBYE CON COME2 CO, 


到 底 要 不 要 说 这 个 话题 ， 
的 就 是 抛砖引玉 ， 那 么 笔者 愿意 
在 SQL 中 ， 分 割 列 或 表 等 要 素 时 需 





笔者 其 实 一 度 非 常 犹豫 。 但 是 既然 本 节 的 目 
接受 批评 ， 下 面 就 讲 一 下 自己 的 观点 。 
要 使 用 逗号 。 很 多 人 都 习惯 把 去 














长 















































号 写 在 要 素 的 后 下 














。 例 如 写 “col 1，col 2，col 3” 时 ， 先 写 col 1， 

















再 在 后 面 写 带 号， 然后 写 col 2， 再 








在 后 面 写 逗 号 …… 但 是 如 果 按照 这 种 











规则 ， 就 不 能 解释 为 什么 col_3 的 


号 得 统一 写 在 要 素 的 前 面 ， 医 

















为 这 





























后 面 没 有 写 逗 号 。 同 时， 也 并 不 是 说 如 











样 就 不 能 解释 为 什么 col_1 的 前 二 





| 没 











注 @ 
在 数据 库 学 界 ， 支 持 “ 后 置 写法 ” 
的 代表 可 能 是 Joe Celko。 
把 喜 号 放置 在 每 行 的 结尾 而 不 是 
开头 。 逗 号、 分 号 、 问 号 或 句号 
从 视觉 上 表示 某 个 内 容 的 结束 而 









































不 是 开始 。 窗 自 《SQL 编程 
风格 》( 人 民 邮 电 出 版 社 ，2008 
年 ) 第 28 页 








这 个 观点 正确 与 否 我 们 暂且 不 
管 ， 至 少 它 的 论据 是 有 问题 的 。 
后 因 是 ，Joe Celo TE 朗 符 和 终 

















发 示 局 结 襟 的 终止 和 ， 但 是 这 
号 是 一 种 连接 符 ， 用 于 
素 ， 从 这 一 点 来 说 ， 逗 号 
与 AND 或 OR 等 是 一 样 的 。 因 
将 逗号 写 在 行 的 开头 也 没什么 厅 
怪 的 。 





























臣 彬 
kh 



































1-12 ”SQL 编程 方法 


209 @ 











这 人 句 话 听 起 来 没 错 ， 到 
理解 为 什么 要 像 下 面 














ZI 
EE 
TH 








SELECT 


FROM tbl a 


有 写 避 号 了 。 正 确 的 写法 是 把 





























这 样 写 了 。 
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这 里 我 们 以 逗号 “…,” 为 例 ， 不 过 “+ 


和 OR 与 这 里 的 逗号 
这 种 “前 置 过 号 











一 样 ,起 到 的 是 连接 要 素 的 作 上 月 











逗号 写 在 要 素 和 要 素 的 中 间 。 


E 所 当然 。 如 果 基 于 这 样 的 想法 来 思考 ， 我 们 就 


-” 等 二 元 运 -0 以 及 AND 


行 的 开头 。 











“的 写法 有 两 个 好 处 。 第 











后 执行 











也 不 会 
SELECT 子 句 的 结 
须 手 动 地 删除 逗号 才 行 。 当 然 ， 


昔 。 如 果 按 照 








凡 征 











是 删 掉 最 后 一 列 “col_ 4? 








般 的 写法 来 写 , 那么 
尾 会 变 成 “col_3，”， 执 行 会 出 错 。 为 了 防止 出 错 ， 
“前 置 去 号 ”的 写法 在 需要 删除 第 一 





用 掉 最 后 的 col_4 后 ， 


还 必 
列 时 











也 会 有 同样 的 问题 ， 但 是 一 般 来 说 需要 添加 或 删 掉 的 大 多 是 最 后 一 列 。 写 








其 是 对 初次 见 到 这 种 写法 
是 什么 !?” 这 难道 不 是 与 本 节 的 主 则 “追求 可 
驰 了 吗 ? 

是 的 ， 这 名 批评 刚好 触及 了 痛 点 9。 








写法 确实 需要 





第 二 个 好 处 是 ， 每 行 中 到 号 都 | 
进行 算 形 区 域 选 择 的 编辑 器 就 会 非 
那么 去 号 的 列 位 置 就 会 因 列 的 长 度 不 同 而 

除了 这 些 好 处 ， 这 种 写法 也 有 






































es 可 能 第 一 眼看 到 这 段 代码 时 会 惊 呼 “这 


在 第 一 位 的 列 很 多 时 候 都 是 重要 的 列 ， 相 对 而 言 不 会 有 很 大 的 变动 。 
现在 同一 列 ， 因 此 使 用 Emacs 等 可 以 
方便 操作 。 如 果 将 
参差 不 齐 。 
一 个 缺点 ， 那 就 是 可 读 改 





逗号 写 在 列 后 面 ， 


FE 稍 微 差 些 。 尤 























花费 不 少 精力 。 也 正 
己 其 实 也 一 度 非常 犹豫 要 不 要 

















这 个 话题 。 








A 笔者 全 已 E 理 





读 性 高 的 代码 风格 ” 背 道 而 























解 ， 改 变 已 经 习惯 了 的 
因为 如 此 ， 笔 者 才 在 本 部 分 开头 提 及 自 





























但 是 为 了 让 大 家 理解 “前 置 辟 














号 ”写法 真 的 有 很 多 好 处 ,所 以 还 是 决定 说 了 。 不 知 各 位 读者 有 何 感想 呢 ? 


不 使 用 通 








配 符 
使 用 通 配 














法 很 方便 ， 但 最 好 还 是 不 要 这 样 做 。 使 月 
论 上 来 说 并 不 需要 的 列 ， 不 仅 会 降低 代码 的 可 读 性 





























符 (*) 指定 所 有 列 后 ， 表 的 全 部 列 都 会 被 选中 。 虽 然 这 种 写 
通配符 后 查 出 的 结果 中 会 包含 理 
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也 不 利于 需求 变更 。 
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而 且 ， 因 为 结果 的 格式 依赖 于 列 的 排列 顺序 ， 所 以 修改 表 中 列 的 排列 顺序 ， 
或 者 添加 、 修 改 列 就 会 导致 结果 的 格式 发 生变 化 。 


























x SELECT * FROM SomeTable; 
WY SELECHeoMN col2 eo 3 EROM Sonemable, 






































所 以 ,尽管 有 些 麻 烦 ,但 大 家 还 是 只 把 需要 的 列 写 在 SELECT 子 句 里 吧 。 











ORDER BY 中 不 使 用 列 编号 

在 ORDER BY 子 句 中 ， i A a en 作为 
排序 的 列 来 使 用 。 在 动态 生成 SQL 等 情况 下 ， 这 是 很 有 用 的 功能 ， 但 是 
这 样 的 代码 可 读 性 很 不 好 。 而 且 这 个 功能 在 SQL-92 中 已 经 被 列 为 了 “未 
来 会 被 删除 的 功能 ”。 因 此 保守 一 点 来 讲 ， 最 好 不 要 使 用 它 。 和 前 面 讲 过 
的 通配符 一 样 ， 一 般 来 说 会 受 列 的 顺序 和 位 置 影响 的 写法 都 应 该 避免 ， 这 
也 是 一 条 铁 律 。 




















































































































x SELECT co ol? EROM Sonelable ORDERIBY 1 2 
VY SEEECIcCoM eol ERoM Somelable ORDERe EV c ol eo 





请 说 普通 话 
SQL 是 一 种 有 多 种 方言 的 语言 ， 各 种 数据 库 实现 都 为 我 们 做 了 各 种 
扩展 (不 管 是 好 的 还 是 坏 的 )。SQL 官方 其 实 已 经 制定 了 标准 语法 (当前 
最 新 的 是 SQL:20038), 但 是 并 没 能 做 出 多 少 推动 统一 的 努力 。 关 于 这 一 点 ， 
Demet m1 Ws 也 有 一 些 历史 原因 。 过 去 的 标准 SQL 很 弱 ， 并 没有 达到 实用 的 程度 ， 很 
多 数据 库 厂商 不 得 不 自己 扩展 标准 SQL 中 没有 的 功能 
晶 是 ， 近 年 标准 SQL 越 来 越 完 善 ， 也 越 来 越 实 用 了 。 如 果 还 继续 使 
各 种 数据 库 的 方言 进行 编程 ， 就 会 出 现 很 难 像 PostgreSQL 一 Oracle、 
SQL Server 一 MySQL 这 样 在 DBMS 之 间 移 植 代码 的 情况 ， 而 且 开 发 者 
换 到 不 熟悉 的 DBMS 后 会 很 不 习惯 新 的 编程 环境 。 
这 些 问 题 只 需要 稍微 注意 一 下 就 可 以 避免 ， 所 以 大 家 还 是 在 日 常 开发 
中 养 成 使 用 标准 语法 的 习惯 吧 。 下 面 列 出 了 几 个 需要 注意 的 地 方 。 
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1. 不 使 用 依赖 各 种 数据 库 实现 的 函数 和 运算 符 
很 多 依赖 数据 库 实现 的 函数 都 是 转换 函数 或 字符 串 处 理 函 数 。 不 要 
使 用 这 些 函 数 : DECODE(Oracle)、IF(MySQL)、NVL(Oracle)、sSTUFF(SQL 
Server) 等 。 请 使 用 cASE 表达 式 或 者 COALESCE、NULLIF 等 标准 函数 代 
它们 。 此 外 , 像 SIGN 或 ABS、REPLACE 这 些 , 虽然 标准 SQL 没有 定义 它们 ， 
但 是 几乎 所 有 的 数据 库 都 实现 了 它们 ， 所 以 使 用 一 下 也 没关系 。 
让 人 头疼 的 是 标准 SQL 中 有 定义 ， 但 是 各 数据 库 实现 情况 不 同 的 功 
能 。 例 如 日 期 函数 EXTRACT， 以 及 用 于 字符 串 连 接 的 运算 符 “||” 或 者 
POSITION 图 数 。 这 些 函 数 的 使 用 频率 都 很 高 ， 但 是 请 记 住 ， 使 用 它们 会 
导致 代码 的 可 移植 性 变 差 ( 解 决 这 个 问题 ， 我 们 就 需要 期 待 各 数据 库 厂商 
的 推动 了 )。 
2. 连接 操作 使 用 标准 语法 
在 SQL 的 语法 中 ， 依 赖 数据 库 实现 最 严重 的 是 连接 语句 。 在 很 早 的 
时 候 ， 连 接 条 件 和 普通 的 查询 条 件 一 样 ， 都 是 写 在 WHERE 子 句 里 的 。 






































































































































































































































SELECT * 
FROM Foo F, Bar B 
WHERE F.state = B.state 
AND F.city = ' 东 京 '; 











标准 SQL 使 用 INNER 或 CROSS 等 表明 连接 类 型 的 关键 字 ， 连 接 条 件 
可 以 使 用 oN 子 句 分 开 写 。 














-- 内 连接 ， 而 且 一 眼 就 能 看 明白 连接 条 件 是 F.state = B.state 
SEIECT ~% 
FROM Foo F INNER JOIN Bar B 
ON F.state = B.state 
WHERE F.city = ' 东 京 '; 











这 样 写 的 话 ， 一 眼 就 能 看 明白 连接 的 类 型 和 条 件 ， 代 码 可 读 性 很 好 。 

外 连接 请 使 用 LEFT OUTER JOIN、RIGHT OUTER JOIN 或 者 FULL 
OUTER JOIN 来 写 。 使 用 (+) 运算 符 (Oracle)、*= 运算 符 (SQL Server) 等 
依赖 数据 库 实现 的 写法 会 降低 代码 的 可 移植 性 ， 而 且 表 达能 力也 有 限 ， 所 
以 还 是 尽量 避免 吧 。 标 准 SQL 中 人 允许 省 略 关键 字 oUTER， 但 是 这 个 关键 
闻 便 于 我 们 理解 它 是 外 连接 而 非 内 连接 ， 所 以 还 是 写 上 吧 。 
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ED 
如 果 继 续 追 问 “ 为 什么 人 的 眼睛 
从 左边 而 不 从 右边 开始 浏览 呢 ”， 
那么 可 能 就 会 没完 没 了 ， 所 以 我 
们 就 到 此 为 止 吧 。 
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“左派 ”和 “右派 " 


外 连接 有 左 连接 、 右 连接 和 全 连接 三 种 类 型 。 
的 表达 能 力 是 一 样 的 ， 理 论 





了 




















上 讲 使 用 哪个 都 可 以 。 


























头 都 出 现在 左边 〈 笔 





其 他 介 





一 般 表 头 都 在 左 ; 


[Es 




















视线 移动 方向 ) ®。 


从 FROM 子 句 开 始 写 


这 部 分 内 容 可 能 有 点 多 余 ， 如 果 大 家 觉 





但 是 笔者 认为 ， 在 代码 风格 方 画 
者 没 遇 见 过 表 头 上 
作为 主 表 的 话 ，SQL 就 能 和 执行 结果 在 格式 上 保持 
到 SQL 语句 时 ， 我 们 很 容易 就 能 想象 出 执行 结果 的 格式 。 
站 绍 SQL 的 书 也 能 发 现 ， 绝 大 多 数 示例 都 会 选择 使 用 
作者 们 也 是 出 于 同样 的 考虑 。 





至 于 为 什么 表 头 一 般 都 在 左 侧 ， 
都 是 从 左上 角 开 始 浏览 信息 的 〈 可 以 想象 一 下 自 














一 下 。 


大 家 在 写 SQL 语句 时 ， 是 按照 什么 顺序 写 的 呢 ? 
说 是 从 SELECT 子 句 开 
难道 不 该 从 它 开始 写 吗 ?” 
当然 ， 从 sELECT 子 句 开始 写 也 没 问题 。 
SQL 语句 ， 不 管 从 哪里 开 


都 会 



























































， 左 连接 有 一 个 优势 : 
现在 右边 的 情 








其 中 ， 磊 





























一 致 。 这 样 一 来 ， 


























hail 














左 连接 ， 








表 头 在 右边 的 话 看 起 来 有 点 奇怪 




















连接 和 右 连 接 


一 般 情 况 下 表 
况 )。 使 用 左边 的 表 


在 看 


了 #E 实 上 ， 看 看 


大 概 






































台 写 的 。 他 们 可 能 








笔者 想 ， 大 部 

















笔者 觉得 原因 可 能 是 我 们 的 眼睛 一 般 
己 站 在 自动 贩卖 机 前 时 的 
得 值得 参考 ， 那 么 可 以 试 


分 人 


会 觉得 “SELECT 子 句 在 开头 ， 


比如 对 于 一 共 10 行 左右 的 


台 写 都 没 太 大 的 差别 。 但 是 以 笔者 的 经 验 ， 


如 果 
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SQL 语句 很 长 或 者 很 复杂 ， 这 种 写法 就 会 耗费 很 多 时 间 ， 而 且 写 出 的 代码 
很 难 阅读 。 

原因 是 SELECT 子 句 是 SQL 语句 中 最 后 执行 的 部 分 ， 写 的 时 候 根 本 没 
有 必要 大 在 意 。 








SQL 中 各 部 分 的 执行 顺序 是 : FROM 一 WHERE 一 GROUP BY 一 HAVING 一 


SELECT( 一 ORDER BY) 。 严 格 地 说 , ORDER BY 并 不 是 SQL 语句 的 一 部 分 ， 





有 









































ED 因此 可 以 排除 在 外 。 这 样 一 来 ，sELECT 就 是 最 后 才 被 执行 的 部 分 了 @。 
这 也 是 在 SELECT 子 句 中 为 列 起 Es 四 ee 、 全 , 
的 别名 无 法 在 GROUP BY 子 句 中 SELECT 子 句 的 主要 作用 是 完成 列 的 格式 转换 和 计算 ， 并 没有 做 很 多 
使 用 的 原因 。 但 是 也 有 支持 在 
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ogoup By 地 各 中 使 用 在 scecr 工作， 用 做 菜 来 类 比 的 话 就 像 是 最 后 添加 调料 的 环节 。 因 为 它 总 是 出 现在 
22220020 最 开始 的 位 置 , 所 以 很 容易 引起 人 们 的 注意 ,但 是 在 考虑 具体 逻辑 的 时 候 ， 
我 们 完全 可 以 先 忽 略 它 。 相 对 而 言 ，WHERE、GROUP BY 和 HAVING 等 起 到 
的 作用 更 重要 一 些 。 
忆 此 ， 如 果 需 要 写 很 复杂 的 SQL 语句， 可 以 考虑 按照 执行 顺序 从 
FROM 子 句 开始 写 ， 这 样 添加 逻辑 时 更 加 自然 。 即 使 不 知道 在 SELECT 子 句 
里 写 什么 ， 也 肯定 知道 应 该 在 FROM 子 句 中 写 些 什 么 《如 果 不 知道 ， 那 么 
说 明 表 的 结构 还 没有 确定 ， 因 此 应 该 先 完 成 表 的 设计 ， 然 后 再 考虑 SQL 
语句 )。 
如 果 把 从 sELECT 子 句 开始 写 的 方法 称 为 自 顶 向 下 法 ， 那 么 从 FROM 
子 句 开 始 写 的 方法 就 可 以 称 为 自 底 向 上 法 。 用 C 语言 来 类 比 的 话 ， 从 
main 函数 开始 写 ， 逐 步 完成 各 个 模块 的 方法 是 自 顶 向 下 法 ， 而 先 写 各 个 
模块 ， 再 组 装 到 一 起 的 方法 就 是 自 底 向 上 法 。 虽 然 面向 过 程 语 言 中 的 模块 
和 SQL 中 的 “ 子 句 ”(clause) 并 不 能 完全 对 等 ， 但 是 笔者 认为 这 个 道理 
EBD 大 家 应 该 能 明白 8。 


“从 FROM 子 句 开始 写 ” 的 想法 
源 于 Jonathan Gennick 的 文章 


An Incremental Approach to 国 a 
Developing SQL Queries (http:// Fr" 本 节 小 结 































































































































































































































































































gennick.com/incremental.htm] )。 

笔者 也 从 这 篇 文章 中 受到 了 很 大 也 许 各 位 读者 已 经 注意 到 了 , 本 节 内 容 和 前 面 各 节 风 格 不 太一 样 。“ 风 \ 
站 放生 om on 于 为。 格 不 太一 样 ”这 种 说 法 有 些 委婉 ， 直 截 了 当地 说 ， 其 实 本 节 内 容 与 前 面 各 
oe 节 相 互 矛盾 。 前 面 各 节 介绍 的 很 多 技巧 都 为 了 追求 效率 而 牺牲 了 可 读 性 。 
但 是 到 了 本 节 , 唾沫 星子 还 没 干 呢 就 反 过 来 说 不 能 为 了 效率 而 牺牲 可 读 性 ， 


这 难道 不 是 相互 矛盾 的 吗 ? 其 实 ， 可 读 性 和 效率 并 非 水 火 不 容 的 关系 ， 有 
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些 时 候 鱼 和 熊 掌 是 可 以 兼 得 的 。 但 是 ， 大 部 分 情况 下 ， 我 们 还 是 很 难 兼 顾 
两 者 。 

如 果 要 问 笔者 倾向 于 哪 一 边 ， 不 用 说 ， 肯 定 是 本 节 强 调 的 可 读 性 。 原 
因 很 简单 ， 如 果 硬 件 和 数据 库 本 身 的 性 能 提升 了 ， 即 使 我 们 不 对 SQL 做 
什么 优化 ， 性 能 也 能 得 到 提升 。 相 反 ， 代 码 难 读 的 问题 没有 谁 能 帮 我 们 解 
决 ， 能 保证 代码 可 读 性 的 只 有 开发 者 自己 。 因 此 当 需 要 从 两 者 中 做 出 选择 
时 ， 笔 者 会 台 不 犹 驳 地 选择 可 读 性 。 

性 能 优化 是 一 个 非常 有 趣 的 领域 ， 将 耗费 1 小 时 的 查询 优化 到 只 需要 
1 分 钟 ， 是 一 件 很 有 成 就 感 的 事情 。 但 是 笔者 还 是 认为 ， 既 然 编 程 是 一 种 
沟通 手段 ， 那 么 每 个 开发 者 就 有 义务 保证 自己 写 出 的 代码 表达 清晰 ， 有 具有 
很 好 的 可 读 性 。 




















































































































































































































如 果 想 更 进一步 了 解 SQL 的 编程 方法 ， 请 参考 下 面 的 资料 。 





. Joe Celko,《SQL 编程 风格 》( 人 民 邮 电 出 版 社 ，2008 年 ) 

该 书 并 不 直接 介绍 SQL 的 具体 技术 ， 而 是 重点 介绍 程序 设计 相关 的 知 
识 和 代码 风格 ， 涵 盖 了 表 和 列 的 命名 规则 、 代 码 风格 、 糟 糕 的 表 设 计 
案例 、 视 图 和 存储 过 程 的 用 法 ， 以 及 集合 论 思 路 等 丰富 的 内 容 ， 是 应 该 
人 和 手 一 册 的 好 书 。 特 别 是 第 6 章 “ 编 码 选择 ” 第 10 章 “ 以 SQL 的 方 
式 思 考 ” 推荐 所 有 数据 库 工 程 师 都 阅读 一 下 。 

2. Brian W.Kernighan、P.J.Plauger, 《编程 格 调 》( 人 民 邮 电 出 版 社 , 2015 年 ) 
该 书 是 关于 代码 风格 的 经 典 书 。 书 非常 老 ， 而 且 用 的 都 是 面向 过 程 语言 
的 示例 代码 ， 但 是 里 边 的 很 多 内 容 直 到 现在 还 能 带 给 我 们 启发 。 其 中 的 
基本 思想 在 思考 SQL 的 代码 风格 时 也 是 有 用 的 ， 这 一 点 让 笔者 很 震惊 。 
这 正 说 明 ， 这 本 书 真 的 深入 到 了 编程 的 核心 本 质 。 
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第 2 章 


关系 数据 库 的 世界 












> 1969 年 一 一 一 切 从 这 里 开始 


关系 数据 库 从 诞生 至 今 已 经 有 四 十 多 年 ， 现 在 依然 拥有 着 巨大 的 市 场 规模 。 对 于 关系 数据 库 ， 我 们 
一 直 以 来 都 习以为常 地 在 日 常 工作 中 使 用 着 。 本 章 将 稍微 深入 探究 一 下 关系 数据 库 的 诞生 以 及 发 展 史 。 





| 关系 数据 库 的 历史 


原 论文 题 为 DerivabiTity Redundancy 
and Consistency of ReBtions Stored 


in Large Lata Banks, 
版 。 一 一 编者 注 





h 文 








说 到 关系 数据 库 的 历史 时 ， 必 须 第 一 个 提 到 的 人 是 关系 模型 的 创始 人 
E.F. Codd (1923 一 2003)。 他 已 经 辞世 ， 所 以 我 们 再 也 不 能 向 他 请 教 与 关 
系数 据 库 相 关 的 知识 了 。 但 是 ， 他 的 影响 力 丝 毫 没有 减弱 。 笔 者 想 ， 也 许 
在 关系 数据 库 被 其 他 某 种 数据 库 完全 取代 之 前 ， 他 的 影响 力 都 不 会 消失 。 

Codd 从 牛津 大 学 数学 专业 毕业 后 ， 作 为 英国 空军 的 飞行 员 参加 了 第 
二 次 世界 大 战 ， 战 后 去 往 美 国 ， 加 入 IBM 公司 开始 从 事 开 发 工作 。 他 在 
1969 年 发 表 了 论文 《大 型 数据 库 中 关系 存储 的 可 推导 性 、 元 余 与 一 致 性 9。 
这 篇 里 程 碑 式 的 论文 奠定 了 关系 模型 的 理论 基础 。 

在 本 节 中 ， 我 们 将 一 起 学 习 一 下 Codd 这 篇 论文 的 一 些 要 点 ， 从 而 了 
解 一 下 它 的 历史 意义 。 当 然 ， 讲 述 关 系数 据 库 的 历史 时 ， 以 阅读 这 篇 论文 
之 后 深 受 启发 的 年 轻 工 程 师 们 (例如 Oracle 的 创始 人 拉 里 ' 埃 里 森 ) 为 
核心 ， 讲 述 他 们 创造 出 一 个 个 优秀 数据 库 的 故事 也 是 很 有 趣 的， 但 是 限于 
篇 幅 我 们 不 能 这 样 做 。 而 且 , 其 实 已 经 有 很 多 介绍 这 些 故 事 的 优秀 图 书 了 。 
在 这 里 ， 我 们 将 把 注意 力 集中 到 对 关系 模型 本 身 的 历史 地 位 的 探究 上 。 下 
四 的 内 容 主要 依据 C.J. Date 的 著作 The Database Relation Model。 





















































































































































实际 上 ，Codd 写 了 两 篇 与 关系 模型 相关 的 论文 。 第 一 篇 是 写 于 1969 
年 的 《大 型 数据 库 中 关系 存储 的 可 推导 性 、 元 余 与 一 致 性 》 遗憾 的 是 ， 




















2-1 关系 数据 库 的 历史 217 ®@ 








这 篇 论文 发 表 在 IBM 公司 内 部 期 刊 [BM Research Report 上 了 ， 因 此 并 没 

有 引起 外 界 的 注意 。 

在 接 下 来 的 1970 年 ,Codd 又 在 权威 学 术 杂 志 Communications of 

ED 4CM 上 ,以 (大 型 共享 数据 库 的 关系 模型 为 题 发 表 了 第 二 篇 论文 。 至 此 ， 

关系 模型 真正 地 问世 了 。 现 在 人 们 读 到 的 论文 基本 上 都 是 这 一 篇 。 

ee 但 是 ， 就 像 CJ. Date 说 的 那样 ， 这 篇 论文 充满 了 学 术 味道 ， 而 且 比较 
偏重 理论 和 数学 ,所 以 即使 是 数据 库 方面 的 专家 ,一 般 也 不 会 去 阅读 。 的确 ， 
对 于 从 事 开 发 工作 的 工程 师 来 说 ， 这 篇 论文 有 些 难以 读 懂 。Codd 毕竟 是 
接受 过 严格 数学 训练 的 人 ， 写 出 的 论文 也 以 读者 具有 集合 论 和 谓词 逻辑 的 
知识 为 前 提 ， 因 此 尽管 这 篇 论文 的 篇 幅 不 算 很 长 ， 但 仍然 让 人 感觉 阅读 门 
槛 很 高 。 

但 是 不 用 担心 ， 笔 者 相信 坚持 把 本 书 读 到 这 里 的 各 位 读者 已 经 在 阅读 

本 书 的 过 程 中 不 知 不 觉 地 掌握 了 集合 论 和 谓词 逻辑 的 基础 知识 。 接 下 来 我 
们 了 解 一 下 这 篇 论文 的 一 些 要 点 。 大 家 读 完 可 能 会 觉得 这 些 知识 与 我 们 之 
前 学 习 过 的 东西 差不多 呢 。 
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根据 CJ. Date 的 总 结 ，Codd 这 两 篇 论文 的 主要 贡献 可 以 归纳 为 以 下 
3 人 





1. 定义 了 关系 运算 ( relational calculus )。 
2. 定义 了 关系 代数 ( relational algebra )。 
3. 采用 谓词 逻辑 作为 数据 库 操作 的 基础 。 





第 1 点 中 的 关系 运算 也 被 称 为 关系 逻辑 (relational logic)。Codd 调整 
了 一 阶 谓词 逻辑 ， 以 便 其 能 够 用 于 关系 数据 库 ， 并 定义 为 了 关系 运算 。 对 
于 第 2 点 中 的 关系 代数 ， 数 据 库 工程 师 们 应 该 都 很 熟悉 。Codd 定义 的 关 
系 代数 包含 选择 、 投 影 、 并 、 交 等 8 种 运算 ， 输 入 和 输出 都 是 关系 。 他 将 
这 些 运算 设计 成 了 封闭 的 , 从 而 促进 了 SQL 的 快速 发 展 。 关 于 这 一 点 , 2-3 
节 将 详细 介绍 。 可 以 说 ，Codd 思维 严谨 ， 他 的 深思 熟 虑 为 关系 模型 的 发 
展 黄 定 了 非常 坚实 的 理论 基础 。 
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表述 第 3 点 中 的 谓词 逻辑 时 ，C.J. Date 的 用 词 给 人 的 感觉 与 前 2 点 稍 
微 有 些 不 同 。C.J. Date 没有 使 用 “发 明 ” 而 使 用 了 “采用 ”这 个 词 ， 这 是 
因为 谓词 逻辑 并 不 是 由 Codd 提出 的 ， 而 是 诞生 于 十 九 世 纪 末 的 逻辑 体系 。 
1969 年 时 ， 谓 词 逻辑 已 经 成 为 了 逻辑 学 的 标准 现在 也 一 样 )。 









































1969 年 一 一 一 切 从 这 里 开始 


1969 年 的 论文 不 仅 给 出 了 关系 的 定义 ， 还 考虑 到 了 主键 的 概念 ， 所 以 
即使 说 Codd 凭 一己 之 力 黄 定 了 关系 模型 的 基础 也 毫 不 为 过 。 
但 是 需要 注意 的 是 ，Codd 此 时 提出 的 “主键 ”这 个 词 并 非 我 们 现在 
所 说 的 “主键 ”， 而 更 像 是 “ 超 键 ” 因为 Codd 允许 主键 存在 元 余 ， 而 且 
一 张 表 中 可 以 存在 多 个 主键 。1970 年 的 论文 又 追加 了 “外 键 ” 的 概念 。 
还 有 ，1969 年 的 论文 中 有 一 名 非常 重要 的 话 《〈 但 是 不 仔细 的 话 看 很 
容易 漏 过 )， 这 人 句 话 来 自 该 论文 某 一 章 的 开篇 语 。 



















































































将 数据 看 作 关系 后 ， 有 可 能 创造 出 以 二 阶 谓词 逻辑 为 基础 的 用 于 查询 
一 般 数 据 的 子 语言 。 




















相信 本 书 的 读者 们 一 定 能 够 理解 这 句 平 实 的 话 有 着 多 么 重要 的 意义 
是 的 ， 这 就 是 二 阶 谓词 逻辑 (second-order predicate logic) ! 

世界 上 还 尚未 出 现实 现 了 它 的 关系 数据 库 。 此 时 的 Codd 正在 脑海 中 
独自 构思 能 够 明确 地 对 关系 进行 量化 的 虚拟 数据 库 系统 。 不 过 ， 在 1970 
年 的 论文 中 ， 这 部 分 被 悄悄 地 蔡 换 成 了 “一 阶 ”(first-order)。 蔡 换 的 具体 
原因 不 清楚 ， 笔 者 想 也 许 是 因 on 二 阶 谓词 逻辑 时 发 现 数据 库 系 统 
会 变 得 非常 复杂 ， 而 且 没 有 实际 的 益 

不 过 ， 正 是 be 逻辑 学 的 研究 成 果 
才 可 以 直接 应 用 于 数据 管理 系统 。 这 个 选择 为 数据 库 的 发 展 带 来 了 太 多 的 
好 处 ， 而 做 出 这 样 的 选择 也 需要 具备 非常 有 前 瞻 性 的 眼光 。 
在 此 之 前 ， 有 谁 党 试 过 把 存储 在 数据 库 中 的 数据 看 成 命题 吗 ? 数据 就 
是 数据 ， 把 它 看 成 语句 的 想法 实在 太 奇 特 了 ， 并 不 是 那么 容易 能 想到 的 。 
“Codd 最 具 决 定性 的 重要 思想 就 是 把 数据 看 成 关系 的 集合 ， 然 后 再 把 关系 
看 成 ( 真 ) 命题 的 集合 。 这 样 ， 在 创造 出 基于 谓词 逻辑 的 语言 之 后 ， 就 能 
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直接 使 用 这 种 语言 查询 数据 了 ”一 一 C.J. Date 的 这 人 句 评论 说 到 了 关键 点 上 。 

1969 年 的 论文 还 简单 介绍 了 这 种 查询 语言 (当时 还 没有 命名 为 SQL) 
的 一 些 其 他 特征 ， 这 些 特征 有 些 在 现在 的 SQL 语言 中 仍然 存在 ， 比 如 能 
够 进行 集合 层次 的 操作 ， 以 及 是 一 种 不 完整 的 “数据 子 语言 ”(data 
sublanguage) 等 。 






























































与 前 一 年 的 论文 相 比 ，1970 年 的 论文 有 几 个 比较 大 的 不 同 点 。 其 中 之 
一 就 是 ， 更 加 强调 数据 在 逻辑 层 和 物理 层 的 独立 性 。 
在 Codd 提出 关系 模型 之 前 ， 数 据 库 系统 的 主流 模型 是 分 层 模 型 和 网 
状 模型 。 这 两 种 模型 在 查找 数据 时 都 需要 使 用 索引 指针 )， 因 此 用 户 必 
须知 道 数据 的 存储 位 置 ， 抽 象 程度 非常 低 。 正 因 如 此 ，Codd 的 首要 目标 


































































































就 是 将 用 户 从 这 种 毫 无 意义 的 烦恼 中 解放 出 来 。 于 是 “数据 库 中 不 再 包含 
索引 ， 字 段 间 也 没有 顺序 了 ”@。 
at 下 面 内 容 摘自 1970 年 论文 的 序言 。 












































理 数据 的 地 址 ( 两 者 物理 结构 相 
同 ， 功 能 不 同 )。 











使 用 终端 或 应 用 程序 的 大 型 数据 库 的 用 户 不 需要 知道 数据 在 机 器 上 是 
如 何 存储 的 。 坐 在 终端 前 的 用 户 和 应 用 程序 的 行为 不 应 该 受到 数据 库 内 部 
结构 变更 的 影响 。 


这 段 话 听 起 来 是 不 是 让 人 觉得 信心 十 足 昵 ? 正如 C.J. Date 所 说 ， 在 这 
篇 论文 中 ，Codd 第 一 次 明确 主张 关系 模型 应 该 在 表现 层 放 弃 指针 ， 因 此 

是 一 篇 值得 纪念 的 纲领 性 文章 。 数 据 的 查询 方法 从 通过 索引 查询 变 成 了 
通过 数据 内 容 查 询 ， 数 据 的 存储 顺序 变 成 了 由 SQL 语言 中 的 ORDER BY 子 
名 动态 地 指定 。“ 即 使 说 要 放弃 指针 ， 但 也 只 是 在 “表现 层 ”放弃 , 在“ 物 
里 层 ” 不 还 是 要 保留 吗 ?” 如果 大 家 有 这 样 的 不 满 , 可 以 先 阅读 一 下 本 书 2-4 
节 再 来 理解 Codd 这 种 基于 现实 的 考虑 。 
























































































































































1970 年 的 论文 除了 强调 数据 的 独立 性 之 外 ， 还 有 一 个 重要 的 变化 ， 那 
就 是 出 现 了 范式 的 概念 。Codd 在 这 篇 论文 中 提出 了 第 一 范式 的 想法 (第 
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二 范式 、 第 三 范式 的 定义 出 现在 之 后 的 论文 中 )。 











第 一 范式 。 王 


在 这 篇 论文 

















见 在 看 来 ， 所 有 的 关系 都 满足 第 
此 我 们 可 能 难以 体会 到 Codd 强调 这 一 点 的 意义 在 哪 9 





，Codd 提 到 “范式 ”或 “规范 化 ”的 时 候 ， 指 的 都 是 














范式 是 


里 所 当然 的 前 提 ， 因 

















E。 但 是 ， 在 刚刚 








义 了 关系 模型 的 时 期 ， 必 须要 强调 这 一 点 。 因 为 即使 不 满足 第 二 范式 、 


三 范式 ， 人 1 














系 模型 创建 表 的 必要 条 件 。 


在 存储 设备 中 ， 表 现 








的 列 数组 (column-homogeneous array )， 


则 需要 使 用 更 加 复杂 的 数据 结构 。 














定 
第 
中 也 能 创建 关系 模型 的 表 (经 常见 到 吧 )， 但 是 如 果 不 满足 第 
一 范式 就 不 能 创建 。 换 名 话说 ,“ 所 有 的 关系 都 满足 第 一 范式 ”是 使 用 关 














“规范 化 ”的 关系 可 以 使 用 二 维 的 具有 相同 构造 


有 而 表现 “ 非 规范 化 ”的 关系 





“按照 第 一 范式 进行 规范 化 的 关系 ”其 实 就 是 “定义 域 只 包含 原子 值 


(atomic value) 的 关系 ”(Codd)。 这 是 



































所 说 的 原子 值 ,我 们 今天 称 为 标量 值 。 



























































它 指 的 是 不 能 再 进行 细 分 的 最 小 单位 的 数据 结构 ， 具 体 的 可 以 想象 一 下 一 
般 的 数值 型 或 字符 型 的 值 。 
意外 的 是 ， 在 关系 数据 库 诞生 三 十 年 后 ，SQL-99 进行 了 扩展 ， 使 得 




















我 们 可 以 定义 不 满足 第 一 范式 的 “数组 类 型 ”。 
还 不 能 轻易 下 判断 。 
在 此 之 前 ， 很 多 人 认为 ， 关 系 模型 不 能 处 理 非 规范 化 的 数据 ， 因 此 它 
的 能 力 是 有 限 的 。 这 种 批评 没有 错 。 一 般 来 说 ， 
EF 数组 、 结 构 体 、 对 象 等 多 种 数据 类 
入 到 数据 库 中 时 ,必须 将 它们 分 解 成 标量 值 ， 即 按照 第 
然后 再 存 入 数据 库 。 


究竟 是 好 还 是 坏 ， 





谅 
































不 一 致 的 问题 ， 这 种 问题 称 为 “阻抗 不 














支持 在 宿主 语 








We 
































这 个 扩展 对 关系 模型 来 说 














在 宿主 语言 和 数据 库 之 间 传 递 和 接 | 
方 文 持 的 数据 结构 不 一 致 而 苦恼 过 吧 ? 特别 是 


型 来 表现 





食 数 和 




































































[ 配 2 




















下 言 中 可 用 的 数 和 





时 结构 这 种 


在 宿主 语言 中 可 以 灵活 选 
FE 规范 化 的 数据 。 但 是 在 插 


























一 范式 进行 规范 化 ， 

















时 ， 应 该 有 很 多 读者 因为 双 
和 i 向 对 象 语言 和 关系 数据 库 
| 此 可 见 ， 希 望 数据 库 能 



































而 


但 是 ， 笔 者 认为 ， 如 果 按 照 这 个 方向 发 展 下 去 ， 导 
型 可 能 会 再 次 拾 起 Codd 过 去 放弃 掉 的 那 种 做 法 ， 即 二 阶 谓词 逻辑 。 一 阶 


需求 也 是 有 道理 











的 。 
bP 么 某 一 天 ， 关 系 模 
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谓词 逻辑 只 能 量化 “ 行 (== 命 题 )”, 而 二 阶 谓词 逻辑 还 可 以 量化 “关系 (二 
命题 的 集合 )”， 有 具有 更 强 的 表达 能 力 。 对 于 以 关系 作为 输入 来 处 理 的 系统 
来 说 ， 这 一 定 是 最 为 重要 的 功能 。 

但 是 , 尽管 二 阶 谓词 逻辑 功能 很 强大 , 实现 支持 它 的 系统 却 并 不 容易 ， 
而 且 用 户 使 用 起 来 也 比较 困难 。 假 如 未 来 某 一 天 实现 了 二 阶 谓词 逻辑 的 
DBMS 问世 了 ， 笔 者 还 是 很 想 研 究 一 下 的 (至 少 与 实现 了 四 值 逻辑 的 
DBMS 相 比 ， 笔 者 对 它 更 感 兴趣 )， 但 是 它 到 底 是 否 真 的 有 实际 用 处 ， 还 
是 很 难 判断 的 。 很 抱 菊 这 里 写 的 有 些 模棱两可 ， 因 为 关于 这 部 分 内 容 到 底 
什么 才 是 最 优 解 ， 其 实 笔者 也 给 不 出 明确 的 结论 《〈 毕 竟 连 Codd 自己 都 有 
些 徘 徊 不 定 )。 















































































































































在 本 节 中 ， 我 们 针对 催生 了 关系 数据 库 的 两 篇 论文 ， 简 单 地 解读 了 一 
下 其 内 容 。 尽 管 这 两 篇 都 是 发 表 于 几 十 年 前 的 论文 ， 但 是 直到 今天 还 有 不 
可 动摇 的 意义 ， 让 人 读 起 来 惊叹 不 已 。C.J. Date 曾经 说 “我 深 深 觉 得 数据 
库 的 专家 们 每 年 都 应 该 重读 一 下 这 两 篇 论文 ” 笔者 认为 对 于 我 国 的 数据 
这 工程 师 来 说 也 应 该 是 这 样 的 。 所 谓 经 典 ， 指 的 就 是 每 次 阅读 都 能 有 新 发 
现 的 作品 ，Codd 的 论文 就 是 这 样 历久 弥 新 。 

事实 上 ， 直 到 今天 ， 我 们 都 没有 突破 Codd 当年 创建 的 领域 。 























































































































。 量 化 只 文 持 一 阶 就 行 呢 ， 还 是 应 该 扩展 到 二 阶 呢 ? 
。 复合 型 数据 应 当 看 成 原子 值 吗 ? 

。 把 放弃 地 址 实现 到 什么 程度 才 足 够 呢 ? 

。 以 三 值 逻辑 作为 SQL 语言 的 基础 是 合理 的 吗 ? 

。 处 理 树 形 结构 最 合适 的 模型 是 什么 ? 
























































Codd 提出 的 这 些 问题 大 部 分 在 当今 的 数据 库 领 域 依然 很 现实 。 本 节 
开头 说 过 Codd 的 影响 至 今 还 很 深刻 ， 现 在 大 家 应 该 感受 到 了 吧 ? 从 1969 
年 诞生 到 现在 ， 关 系数 据 库 的 整个 历史 中 都 办 兆 着 这 位 天 才 的 光芒 。 
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> 为 什么 不 叫 “ 表 ”模型 
我 们 平时 都 会 不 假 思 索 地 使 用 “关系 数据 库 ”“ 关 系 模型 ”这 样 的 词语 ,但 是 却 不 是 很 清楚 这 里 的 “ 关 


为 什么 叫 “ 关 系 ”模型 


系 ”真正 指 的 是 什么 。 其 实 ， 这 个 词 有 着 非常 深刻 的 含义 。 


摘 























《关系 数据 库 : 入 
基础 》 

















E 产 力 的 实 





时 不 时 地 会 有 人 间 “ 为 什么 叫 它 关 系 模型 ,而 不 叫 它 表 (tabular ) 模型 ”。 
原因 有 两 个 : (1) 当初 思考 关系 模型 的 时 候 ， 从 事 数 据 处 理工 作 的 人 们 有 一 
种 普遍 的 观点 ， 即 认为 多 个 对 象 之 间 的 关系 (或 者 关联 ) 必须 通过 一 种 链 











接 数据 结构 来 表示 。 为 了 纠正 这 个 误解 ， 我 特意 选择 了 “ 


个 词 作为 名 字 ; (2) 与 关系 相 比 ， 表 的 抽象 度 更 低 ， 容 易 给 人 可 以 像 数组 








一 样 操作 的 印象 ， 而 nn 元 关系 就 不 会 了 。 还 有 ， 数 据 库 表 站 


数据 的 内 容 和 


行 的 顺序 没有 关系 ,在 这 一 点 上 表 更 容易 带 来 误解 。 尽 管 表 有 这 样 的 小 
缺点 ， 但 依然 是 表达 关系 概念 时 最 重要 的 手段 。 毕 竟 表 的 概念 人 们 更 熟 











悉 一 些 ,@ 


= 





一 一 Codd 


关系 数据 库 采 用 的 数据 模型 是 关系 模型 一 一 反 过 来 说 可 能 更 合适 ， 即 





数据 库 采 用 了 关系 模型 ， 因 此 才 被 称 为 关系 数据 库 。 














那么 ， 这 里 所 说 的 “关系 ” 指 的 是 什么 呢 ? 深入 思考 的 话 会 发 现 ， 其 











实 这 个 词 很 抽象 ， 不 太 容易 理解 ， 而 且 很 容易 与 我 们 日 常生 活 中 用 的 “人 

















际 关 系 ”“ 关 系 紧张 ”等 词 中 的 “关系 ” 混 消 。 
既然 如 此 ， 从 一 开始 就 不 使 用 “关系 ”这 样 的 抽象 词 








语 ， 叫 它 “ 表 ” 

















模型 不 是 也 行 吗 ? 所 谓 关 系 ， 说 到 底 不 还 是 二 维 表 吗 ? 像 这 样 不 无 道理 的 
疑问 , 从 关系 模型 诞生 之 日 起 已 经 被 提出 过 很 多 次 了 。“ 总 说 关系 、 关系 的 ， 
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223 @ 

















到 底 是 什么 意思 呢 ?” 

关系 模型 之 父 Codd 本 人 也 表示 时 不 时 地 会 收 到 这 样 的 疑问 (时 不 时 ” 
的 表述 有 点 少 说 了 ， 其 实 应 该 相当 频繁 吧 )， 并 给 出 了 前 文中 的 两 个 解释 。 
其 中 (1) ns ls “链接 数据 结构 ” 指 的 是 使 
用 指针 连接 数据 的 链表 结构 ， 这 是 分 层 模型 和 网 状 模型 数据 结构 流行 的 时 
期 特有 的 。 
而 (2) 现在 仍然 有 思考 的 价值 ,因为 它 触 及 了 “关系 ”这 一 概念 的 本 质 。 
简单 概括 的 话 ， 关 系 和 表 看 起 来 很 相似 ， 实 质 却 不 相同 。 为 了 帮助 大 家 理 
解 这 一 点 ， 笔 者 列 出 了 一 些 关系 和 表 比 较 典 型 的 区 别 。 

























































































关系 中 不 允许 存在 重复 的 元 组 (tuple)， 而 表 中 可 以 存在 。 即 ， 
关系 是 通常 说 的 不 允许 存在 重复 元 素 的 集合 ， 而 表 是 多 重 集合 
(multiset) 
。 关系 中 的 元 组 没有 从 上 往 下 的 顺序 ， 而 表 中 的 行 有 从 上 往 下 的 顺序 
。 关系 中 的 属性 没有 从 左 往 右 的 顺序 ， 而 表 中 的 列 有 从 左 往 右 的 顺序 
。 关系 中 所 有 的 属性 的 值 都 是 不 可 分 割 的 ， 而 表 中 列 的 值 是 可 以 分 
割 的 。 换 名 话说 ， 关 系 中 的 属性 满足 第 一 范式 ， 而 表 中 的 列 不 满 
足 第 一 范式 



































































































































仅 从 列 出 来 的 这 几 条 就 能 看 出 ， 关 系 和 表 之 间 的 区 别 还 是 很 大 的 。 与 
关系 相 比 , 表 的 定义 不 太 严谨 , 而 且 不 明确 。 在 前 文中 我 们 用 了 很 多 次 “元 
组 ”和 “属性 ”这 样 的 词 ， 大 家 有 没有 觉得 “元 组 ~ 行 "“ 属 性 ~ 列 ” 呢 ? 
确实 是 这 样 的 。 元 组 和 属性 是 关系 模型 中 较为 正式 的 术语 ， 与 非 正式 的 日 
ED 常用 语 有 以 下 对 应 关系 9。 


关于 该 表 ， 本 考 《 数 据 库 系统 
第 7 se ( 机 械 工 业 出 版 
社 ，2007 年 关系 和 3 的 区 别 式 的 关系 模型 术语 非 正式 的 日 常用 语 
rs ( 但 是 在 翻译 本 

书 时 ， 为 了 与 下 文 出 现 的 集合 中 表 ( table) 

的 “ 域 ”( field ) 作 区 分 ， 这 里 (tuple ) 行 ( row ) 或 记录 ( record ) 
没有 按照 《数据 库 系统 导论 ( 第 


闸 




























































































导论 






























































7 版 )) 一 书 中 的 用 词 把 Domain ( cardinality ) 行 数 ( numper of rows ) 
译 为 “ 域 "， 而 是 译 为 了 “定义 属性 ( attribute ) 列 ( column ) 或 字段 ( field ) 


域 "。 一 一 编者 注 度 ( degree ) 列 数 ( number of columns ) 
定义 域 ( domain ) 列 的 取 值 集合 ( pool of legal values ) 











虽然 上 二 








出 现 了 个 别 看 起 来 很 专业 的 术语 ， 但 是 一 点 都 不 用 在 意 。 实 
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际 工作 中 把 “ 列 ” 称 为 “属性 ” 

















严 “ 行 数 ” 称 为 “ 势 ” 也 并 没有 特别 的 











好 处 。 关 系 模型 是 以 数学 中 的 集合 论 为 基础 的 ， 因 此 沿用 了 集合 论 的 一 些 














术语 ， 我 们 了 解 了 这 一 点 就 可 以 了 。 不 过 ， 阅 读 一 些 偏 理论 的 比较 严谨 的 
书 时 ,可 能 会 发 现 作者 习惯 使 用 “属性 ” 代替 “ 列 ” 使 用 “元 组 ”代替 “ 行 ” 
所 以 知道 它们 的 对 应 关系 还 是 有 好 处 的 。 

前 面 说 得 有 些 多 ， 让 大 家 和 久 等 了 。 接 下 来 我 们 介绍 一 下 关系 的 正确 定 
义 。 关 系 的 定义 可 以 用 下 面 这 样 一 个 公式 来 给 出 。 





















































RC (D1xD2xD3: . 








xDPn ) 





























(关系 用 符号 R 表示 ， 属 性 用 符号 
这 个 公式 读 作 “关系 及 是 定义 
































公式 很 简洁 ， 为 了 便于 理解 ， 
有 3 个 属性 al、a2、a3， 然 后 
域 与 数学 中 函数 的 定义 域 一 相 
































et eM Ly 
dq20= 
d3={ 红 ， 绿 ， 黄 } 











Ai 表示 ， 属 性 的 定义 域 用 符号 Di 表示 ) 
或 D1, D2, …, Dn 的 笛 卡 儿 积 的 子 集 ” 






































我 们 再 冯 








个 简 让 











的 例子 解释 一 下 。 首 先 假设 

















我 们 描述 一 下 它们 的 定义 域 。 这 里 说 的 定义 
fF， 指 的 是 “ 属 

















性 的 取 值 集合 ” 我 们 假设 属 




















性 al 可 以 取 1 种 值 ， 属性 a2 可 以 取 2 种 值 ， 属性 a3 可 以 取 3 种 值 。 各 
属性 对 应 的 定义 域 分 别 叫 作 dl、d2、d3。 











那么 笔者 问 个 问题 。 使 用 这 3 个 定义 域 生成 关系 时 ， 最 大 的 元 组 数 是 





多 少 ? 答案 是 6。 计 算 方 法 很 简单 ， 就 是 1X2X3 = 6。 全 部 的 元 组 如 下 
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这 个 关系 R1 就 是 笛 卡 儿 积 。 笛 卡 儿 积 是 指 “使 用 各 个 属性 的 定义 域 
生成 的 组 合 数 最 多 的 集合 ” 因此 通过 上 面 3 个 定义 域 生成 的 所 有 关系 
Rn， 都 是 这 个 笛 卡 儿 积 的 子 集 。 例 如 除了 R1l， 我 们 还 可 以 定义 R2， 将 
R2 定义 成 由 “R1 中 的 第 1 行 和 第 2 行 ” 组 成 的 关系 。 需 要 注意 的 是 ， 元 


























组 个 数 为 0 的 关系 也 是 满足 定义 的 @。 

势 为 0 的 关系 在 集合 论 中 叫 作 空 SR a i We 
集 。 当 然 ， 从 实现 角度 来 看 ， 势 这 就 是 我 们 平时 说 到 关系 模型 或 者 关系 数据 库 时 所 说 的 “关系 
为 0 的 关系 相当 于 “有 0 行 数据 








(relation) 的 含义 。 最 早 给 出 这 个 定义 的 是 关系 模型 的 提出 者 Codd, 但 是 “ 关 
系 ” 这 个 词 并 不 是 他 发 明 的 。 集 合 论 很 早 就 把 “两 个 集合 的 笛 卡 儿 积 的 子 
集 ” 称 为 “二 元 关系 ”了 。Codd 所 做 的 只 是 把 它 扩展 到 了 nn 元 关系 。 
Codd 本 身 就 是 一 位 数学 家 ， 因 此 他 当然 是 在 知道 集合 论 中 关系 的 含义 的 
情况 下 借 来 使 用 的 。 





的 表 "。 












































想必 很 多 读者 已 经 注意 到 了 ， 定 义 域 其 实 就 是 (现代 编程 语言 中 的 ) 
数据 类 型 。 我 们 先 看 一 个 例子 ， 下 面 是 一 段 用 Pascal 语言 写 的 代码 。 



































type Day = { Sun, Mon, Tue, Wed, Thu, Fri, Sat }; 
var Today : Day; 
这 段 代 码 中 ， 用 户 定义 的 数据 类 型 为 "Day" (可 取 的 值 刚好 有 7 个)， 
然后 用 户 定义 的 与 该 类 型 相关 的 变量 为 "Today" (只 能 取 上 面 定义 的 7 个 
值 )。 这 种 情况 看 起 来 很 像 是 一 种 拥有 名 为 "Day" 的 定义 域 以 及 定义 于 其 
上 的 属性 "Today" 的 关系 数据 库 。@ 
An Introduction to Database 
Systems(6th Ed.), Addison- 
Wesley，1997 年 。 该 书 第 7 版 在 学 习 关系 的 正式 定义 时 我 们 接触 到 了 定义 域 的 概念 ， 但 是 ， 笔 者 认 
机 械 工业 出 版 社 于 2007 年 引进 ， 和 
妈 《下 让 条 对 号 论 (第 7 版) 为， 对 于 这 个 概念， 恐怕 很 多 经 验 丰富 的 数据 库 工程 师 也 都 不 是 很 熟悉 。 
不 过 ， 因 为 直到 现在 也 几乎 没有 实现 了 定义 域 的 DBMS， 所 以 不 熟悉 也 是 
可 以 理解 的 。 定 义 域 是 关系 模型 在 诞生 之 际 就 存在 的 一 个 重要 的 关键 词 ( 如 
果 无 法 确定 定义 域 的 话 ， 关 系 就 无 法 确定 了 ! 然而 却 一 直 都 未 受到 人 们 
的 重视 。 不 过 ，SQL-92 标准 终于 增加 了 这 一 功能 ， 相 信和 以 后 实现 它 的 
DBMS 会 多 起 来 吧 。 
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实现 了 定义 域 的 DBMS 很 少 





这 种 说 法 严格 来 讲 是 不 正确 的 。 因 





为 对 于 比较 初级 的 定义 域 ， 正 好 相反 ， 几 乎 所 有 的 DBMS 都 已 经 实现 了 。 
定义 域 主要 是 字符 型 、 数 值 型 等 叫 作 标量 类 型 的 数据 类 型 。 因 为 它们 


这 些 


对 属 
的 一 


























性 的 取 值 范 围 有 约束 ， 所 以 尽管 有 局 限 性 ， 但 是 标量 类 型 也 是 定义 
种 。 不 能 往 声明 为 INTEGER 型 的 列 中 插入 abc 这 样 的 字符 串 。 我 们 














藻 



































还 可 以 使 用 cHECK 约束 ， 执 行 比 针对 声明 为 标量 类 型 的 列 进行 的 约束 更 为 
严格 的 约束 ,例如 ,给 声明 为 字符 型 的 列 加 上 约束 ,限制 该 列 只 能 取 值 为 'm' 


和 'f'， 就 可 以 写成 CHECK (sex IN ('m', 'f'))。 
妹 此， 现在 的 DBMS 是 具备 简单 的 定义 域 功能 的 ， 只 不 过 比较 初级 。 





















































将 数据 库 比 作 编程 语言 的 话 ， 
定义 好 的 类 型 ， 不 能 由 用 户 自 定义 类 型 的 编程 语言 。 




















可 以 说 现在 的 DBMS 相当 于 只 能 使 用 系统 











古 希 腊 哲 学 家 赫 拉 克利 特 曾 经 说 过 ,“ 人 不 能 两 次 踏 进 同 一 条 河流 。 








因为 河流 永远 在 不 停 地 变化 ”。 另 外， 日 本 的 鸭 长 明 也 说 过 ,“ 河 水 流动 经 








久 不 奶 ， 然 而 已 经 不 是 原来 的 水 ”两 人 的 话 听 起 来 都 有 些 自 相 了 矛盾 ， 但 
表达 的 却 是 同样 的 主题 ， 即 “保证 一 样 东 西 不 变 的 标准 是 什么 ?” 
那么 ， 究 竟 是 通过 什么 来 保证 的 呢 ? 据说， 我 们 人 类 身体 的 全 部 细胞 
周 更 新 一 次 ， 那 么 一 周 后 我 们 是 不 是 就 会 变 成 另 一 个 人 呢 ? 我 们 赁 什 
信 今 天 交谈 过 的 朋友 明天 还 是 同一 个 人 呢 ? 

言 归 正 传 。 值 (value) 和 变量 (variable) 是 很 容易 混淆 的 概念 ， 在 
和 数据 库 相 关 的 话题 时 ， 两 者 经 常会 被 混用 。 一 般 提 到 “关系 ”这 个 


是 想 





























词 时 ， 如 果 不 加 特殊 说 明 ， 指 





变量 
4 锥 时 




















加 以 


法 ， 










































































的 都 是 “关系 变量 ”。 而 关系 值 指 的 是 关系 





在 某 一 时 刻 取 的 值 。 实 际 上 或 许 我 们 也 可 以 说 ， 值 就 是 变量 的 时 间 切 


片 (time-slice)。 





容易 混淆 的 一 个 原因 是 ，Codd 在 早期 的 论文 中 并 没有 明确 地 对 两 者 











区 别 。 他 的 论文 中 出 现 了 
旦 准确 的 说 法 应 该 是 “ 随 








时 间 变 化 。 
这 与 数学 或 者 编程 语言 中 变量 和 值 之 间 的 关系 是 一 样 的 。 在 编程 语言 











“随时 间 变 化 的 〈time-varying) 关系 ”的 说 
时 间 变 化 的 关系 变量 ” 因为 关系 值 不 会 随 








ED 
从 这 个 意义 上 讲 ， 我 们 每 个 人 的 
名 字 也 可 以 理解 成 变量 。 虽然 
MICK 或者“ 凸 山 太郎 ”这 样 的 名 
字 指 代 的 实体 每 时 每 刻 都 在 变 






































理解 了 这 


























, 整数 型 变量 存储 整数 值 。 同 相 
点 , 我 们 应 该 
关键 在 于 我 们 在 学 校 中 学 到 的 变量 和 值 基本 上 都 是 标量 型 的 和 


就 不 会 像 内 
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# 在 关系 模型 中 , 关系 型 变量 











存储 关系 值 。 





| 接触 这 些 概念 时 那样 觉得 不 可 思议 了 。 









































sy 


类 型 值 ， 





所 以 只 是 不 习惯 把 关系 这 样 的 复合 型 结构 看 成 一 个 值 。FROM 子 句 中 写 的 


表 名 正 











什么 反应 呢 ? 





化 ， 但 是 只 要 使 用 了 同一 个 名 











( 变量 名 )， 就 会 被 当成 同一 个 变 
量 来 对 待 。 


EBD 

鸭 长 明 的 著作 。 芍 长 明 ( 1155 一 
1216 )， 日 本 平安 时 代 示 期 至 镁 仓 
时 代 初 期 的 作家 与 诗人 。( 方丈 
记 》 是 他 隐居 时 回忆 生平 际遇 、 
叙述 天 地 巨变 、 感 慨 人 世 无 常 的 
随笔 集 。 编者 注 



































是 变量 的 名 称 9。 
想象 一 下 ， 如 果 








意义 ! 世上 存在 的 只 有 值 ”， 
学 版 的 《方丈 记 》@ 





阿 ”。 


告诉 赫 拉 克利 特 和 鸭 长 明 变 量 和 值 的 区 别 ， 二 人 会 有 
笔者 想 ， 赫 拉克 利 特 也 许 会 怒吼 道 
而 鸭 长 明 可 能 会 











国 | 存在 “关系 的 关系 ” 吗 


“存在 “关系 的 关系 ” 吗 ” 一 一 这 样 
这 是 前 面 提 到 的 观点 “把 关系 这 样 的 复合 


束 


耐心 地 听 下 去 。 
个 值 ”的 延伸 。 




















这 个 问题 可 以 


关系 吗 ” 


定义 域 包含 关 系 的 谓词 ， 而 且 
谓词 逻辑 ， 因 此 实现 














换 成 “存在 递归 





会 点 头 附 和 “ 咖 虽 ， 


的 问题 听 起 来 可 和 





“无 聊 ! 变量 什么 的 训 无 





原来 是 数 











E 有 点 唐 突 ， 但 

















型 结构 看 成 














的 关系 吗 ” 或 者 “定义 域 ! 











可 以 包含 


“关系 的 关系 ”在 逻辑 上 是 可 能 存在 的 。 但 是 ， 为 此 必须 定义 能 够 使 

















如 果 








再 考虑 对 关系 的 量化 ， 











“关系 上 



































丸 此 这 里 








我 们 只 简单 





关系 ”的 关系 模型 














的 关系 ”非常 困难 




















就 需要 实现 二 阶 


下 描述 这 种 现实 中 还 不 存在 的 “关系 的 





























也 了 解 一 

4 大 概 是 什么 样子 。 首 先 请 看 一 个 具体 的 表 。 
列 2 列 3 
列 1 中 存储 的 值 是 关系 100 





列 1 
性 别 性 别 编号 
男 1 
女 2 
未 知 0 













































































山田 工艺 师 160 上 

EE 大 学 教授 |185 可 pa es 3 
一 个 关系 

矢部 | 警 175 

山田 书法 家 170 
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虽然 这 张 表 看 起 来 有 点 杂乱 ， 但 “关系 的 关系 ”的 关系 模型 就 是 这 个 























样子 。 正 如 字面 意 








思 所 示 ， 这 是 一 种 “关系 之 中 还 有 关系 ”或 者 “ 表 中 还 
































有 表 ” 的 状态 。 像 这 样 包 含 关 系 的 列 《〈 属 性 ) 叫 作 关系 值 属性 relation- 


valued attribute )， 








现在 有 很 多 关于 它 在 关系 模型 中 的 应 用 的 研究 。 


























不 管 怎样 ， 如 果 接 受 了 这 种 “关系 的 关系 ” 那么 自然 就 能 进一步 扩 




















展 到 “关系 的 关系 的 关系 ”或 者 “关系 的 关系 的 关系 的 关系 ”这 样 更 高 阶 
的 关系 。 当 然 它们 





也 都 是 嵌 套 式 的 递归 结构 。 














这 种 递归 关系 与 目录 结构 是 一 样 的 。 就 像 目录 中 可 以 放置 目录 或 者 





























文件 一 样 ， 关 系 ! 











结构 。 


可 以 放置 关系 值 或 者 标量 值 。 因 此 高 阶 的 关系 又 是 树 形 











文件 系统 与 数据 库 的 目的 都 是 提高 数据 的 存储 效率 ， 因 此 从 提高 效率 





的 角度 来 说 ， 两 者 都 采用 树 形 结构 是 理所当然 的 。 只 不 过 如 今 的 关系 数据 



































库 只 定义 了 一 阶 关 系 ， 拿 文件 系统 类 比 的 话 ， 相 当 于 “只 能 定义 一 层 目录 
的 文件 系统 ”。 在 这 一 点 上 ， 比 起 文件 系统 ， 关 系数 据 库 的 表达 能 力 稍 入 





弱 一 些 。 


能 够 定义 高 阶 关系 的 DBMS 还 没 出 现 ， 但 是 标准 SQL 语言 已 经 支持 
了 数组 类 型 和 集合 类 型 的 变量 ， 因 此 关系 模型 正 朝 着 能 够 处 理 复 合 型 数据 































































































的 方向 发 展 。C.J. Date 等 人 甚至 还 断言 道 : 真正 的 关系 系统 就 是 支持 关系 
值 等 全 部 复合 型 数据 的 系统 。 也 许 十 年 以 后 ， 真 的 会 出 现 能 够 定义 高 阶 关 





系 的 DBMS。 
































2-3 开始 于 关系 , 结束 于 关系 
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开始 于 关系 ,结束 于 关系 









也 关于 封闭 世界 的 幸福 
关系 就 是 集合 一 一 知道 这 一 点 只 算是 理解 了 关系 模型 的 冰山 之 一 角 。 关 系 这 种 集合 其 实 有 一 些 非常 
有 趣 且 特殊 的 性 质 ， 其 中 之 一 就 是 与 SQL 语言 的 原理 密切 相关 的 “封闭 性 ”。 





上 一 节 主 要 介绍 了 “关系 是 集合 的 一 种 ”这 一 基础 概念 。 但 是 仅 靠 这 
一 点 ， 还 不 足以 让 我 们 充分 理解 关系 这 一 概念 的 特殊 性 质 。 关 系 不 只 是 集 
合 ， 它 还 有 许多 非常 有 趣 的 性 质 。 其 中 之 一 就 是 “封闭 性 ”(closure 
property)。 这 个 性 质 简 单 地 说 就 是 “运算 的 输入 和 输出 都 是 关系 ” 换 句 
话 来 说 ， 就 是 “保证 关系 世界 永远 封闭 ”的 性 质 。 在 本 节 中 ， 我 们 将 以 关 
系 的 这 个 性 质 为 中 心 ， 再 次 探访 一 下 数据 库 的 世界 。 

SQL 中 有 各 种 各 样 的 关系 运算 符 。 除 了 最 初 的 投影 、 选 择 、 并 、 差 等 
基本 运算 符 ，SQL 后 来 又 增加 了 许多 非常 方便 的 运算 符 ， 现 在 总 的 数量 非 
常 多 。 多 亏 了 关系 的 封闭 性 ， 这 些 运算 的 输出 才 可 以 直接 作为 其 他 运算 的 
输入 。 因 此 ， 我 们 可 以 把 各 种 操作 组 合 起 来 使 用 ， 比 如 对 并 和 集 求 投 影 或 
者 对 选择 后 的 集合 求 差 ， 等 等 。 这 个 性 质 也 是 子 查 询 和 视图 等 重要 技术 的 
基础 。 

关系 的 封闭 性 与 UNIX 中 管道 的 概念 很 像 ， 拿 它 类 比 的 话 可 能 会 容易 
理解 一 些 。UNIX 中 的 文件 也 一 样 具 有 封闭 性 ， 可 以 作为 各 种 命令 的 输入 
或 者 输出 。 因 此 ， 可 以 像 cat text.txt | sort +1 | more 这 样 将 命令 
组 合 在 一 起 来 编写 脚本 。 这 种 写法 让 UNIX 的 脚本 编程 变 得 非常 灵活 。 

关系 运算 在 形式 上 与 水 桶 接龙 是 一 样 的 。 关 系 运 算 符 代表 人 ， 关 系 或 
文件 代表 人 与 人 之 间 传 递 的 水 桶 。 只 不 过 在 传递 过 程 中 内 容 是 有 变化 的 ， 
这 一 点 和 火灾 现场 的 水 桶 接龙 不 同 ， 因 为 水 桶 中 的 水 是 不 会 发 生变 化 的 。 
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备 到 控制 台 ， 


EPL IE AED 


Shell 命 令 





多 数 初 次 接触 UNIX 的 人 会 觉得 很 惊讶 ， 因 为 在 UNIX 系统 中 ， 从 设 











模型 中 ， 关 
SELECT 子 名 
表 〈 关 系 ) 为 参数 ， 
不 到 一 条 数据 , 然而 这 时 会 返回 
因为 我 
据 库 的 这 个 特 公 








于 什么 运算 是 封闭 的 ”这 机 





算 封 闭 上 





一 切 都 可 以 当 作 “ 文 件 











”来 处 到 



































只 不 过 是 /dev 目录 下 的 
的 封闭 性 的 结 
说 成 “一 切 皆 文件 主义 ”应 该 也 可 以 。 





果 。 表 达 











个 普通 文 























个 而 已 。 


。 因 为 从 外 观 上 来 看 ， 设 备 
这 也 是 UNIX 系统 退 求 文件 























UNIX 设计 理念 的 词语 之 一 就 是 “ 泛 文件 主义 ” 








而 且 ,， 在 UNIX 中 ， 文 件 对 于 shel1 命令 是 封闭 的 ， 同 样 地 ， 在 关系 




















返 




















下 





掉 两 个 例子 ， 























的 封闭 性 


得 
本 





系 对 关系 运算 符 也 是 封闭 的 。 关 于 这 一 点 ， 从 “SQL 中 
的 输入 输出 都 是 表 ” 也 能 





到 证 明 。SELECT 子 句 其 实 就 是 以 
可 值 为 表 (关系 ) 的 函数 。 有 时 SELECT 子 句 查询 





























我 们 可 以 把 集合 分 为 下 面 几 类 。 


为 人 





也 是 环 ， 但 却 不 是 域 ， 
果 是 小 数 , 不 满足 封闭 怕 

















“ 空 集 ” 而 不 是 不 返回 任何 内 容 。 只 不 过 ， 
门 没 法 实际 看 到 ， 所 以 不 好 确认 。 仿 照 UNIX 起 名 字 的 话 ， 关 系数 
E 可 以 叫 作 “ 泛 关 系 主义 ”。 
原本 是 来 自 数学 的 概念 。 数 学 中 会 根据 “对 
的 标准 ， 将 集合 分 为 各 种 类 型 。 这 些 对 某 种 运 
的 集合 在 数学 上 称 为 “代数 结构 ”。 例 如 ,按照 对 四 则 运算 是 否 封闭 ， 























群 ( group ) : 对 加 法 和 减法 (或 者 乘法 和 除法 ) 封闭 
环 (ring ) : 对 加 法 、 减 法 、 乘 法 封闭 
域 ( filed ) : 对 加 法 、 减 法 、 乘 法 、 除 法 封闭 ， 即 可 以 自由 进行 四 则 运算 


























如 果 要 举 个 关于 “和 群 ” 的 具体 示例 ， 那 么 最 简单 的 就 是 整数 集 了 ， 因 











E 何 两 个 整数 之 间 进 

















行 加 法 或 者 减法 运算 ， 结 果 一 定 还 是 整数 。 整 数 集 





关于 原因 ， 看 








个 例子 就 知 























道 了 。 比 如 1 二 2 的 结 




















FE。 如果 将 整数 集 扩 展 成 有 理 

















数 集 或 者 实数 集 的 话 ， 








注 @ 

额外 说 一 下 ， 布尔 值 的 集合 
{true，false} 也 是 域 。 虽 然 它 是 
个 只 有 两 个 元 素 的 特别 特别 小 的 有 
限 集合 ， 但 是 我 们 可 以 在 其 中 定 
义 四 则 运算 。 如 果 想 要 强调 布尔 
型 的 域 的 特征 ， 我 们 可 以 称 它 为 
布尔 域 。 








入 























注 @ 
关于 SQL 中 没有 除法 运算 符 的 原 
因 ， 请 参考 1-4 节 末 尾 的 专栏 




















注 @ 

例如 ， 关 于 应 用 了 群 论 中 过 等 性 

这 一 概念 的 查询 ， 请 参考 1-7 节 。 
注 @ 

毫 无 疑问 ，UNIX 的 开发 者 们 也 都 

是 知道 的 。 
































那么 结果 就 满足 域 的 条 件 了 。 这 是 天 
运算 结果 还 是 实数 ® 























除法 运算 的 结果 
可 能 会 跳出 整数 集 





2-3 ”开始 于 关系 , 结束 于 关系 
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为 , 使 用 实数 自由 地 进行 四 则 运算 后 ， 














不 论 进行 哪 种 四 则 运算 ， 
结果 都 会 回 到 实数 集 

















那么 ， 关 系 模 


回忆 一 下 SQL 











型 中 的 “关系 ”相当 于 这 些 代 数 结构 中 的 哪 一 种 呢 ? 
FP 的 集合 运算 符 可 以 发 现 ， 关 系 支 持 加 法 UNION) 运 


算 和 减法 (EXcEPT) 运算 ， 因 此 满足 群 的 条 件 。 关 系 还 支持 相当 于 乘法 
运算 的 cRoss JOIN， 所 以 也 满足 环 的 条 件 。 那 么 最 后 一 个 ， 除 法 呢 ? 很 
遗憾 ， 关 系 中 没有 除法 运算 符 ， 所 以 不 满足 域 的 条 件 。 

的 确 ，SQL 中 没有 除法 运算 符 。 但 是 我 们 在 1-4 节 中 说 过 ， 除 法 运算 














的 定义 是 有 的 8。 因 目 











点 来 看 ， 关 系 可 以 理解 为 “能 自 
Celko 之 所 以 非常 重视 除法 运算 ， 是 














上 ， 关 系 也 满足 域 的 条 件 。 从 满足 运算 相关 特征 的 观 






































进行 四 则 运算 的 集 


。C.J Date 和 Joe 




















他 们 深 知 只 有 定义 
由 此 可 见 》 关 



























































A 
因为 一 方面 它 的 实用 性 高 ， 另 一 方面 








了 除法 ， 关 系 才 有 资格 成 为 域 。 





系 模 型 理论 具有 严密 的 数学 基础 。 这 样 的 好 处 是 ， 能 够 
直接 使 用 集合 论 和 群 论 等 领域 中 已 经 得 到 广泛 应 用 的 研究 成 果 @。Codd 














深 知 构造 这 样 严 密 


接 运算 的 结果 不 是 关系 〈 表 )，SQL 这 门 语言 会 变 得 非常 难 用 。 无 法 使 用 



































的 理论 体系 是 多 么 地 重要 @。 实 际 上 ， 如 果 UNION 和 连 











子 查询 的 SQL 一 一 这 根本 无 法 想象 。 

















E。 同 样 地 ， 关 系 


























综 上 所 述 ，UNIX 的 文件 通过 对 shell 命令 封闭 实现 了 非常 灵活 的 功 
通过 对 关系 运算 封闭 ， 使 SQL 具有 了 非常 强大 的 表达 
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“人 奶 求 理论 的 严 谍 ， 并 不 会 降低 它 的 实用 性 。 相 反 ， 越 严谨 越 优雅 的 
理论 越 实用 。” 这 是 CJ. Date 的 观点 。 虽 然 这 是 一 种 功能 主义 的 主张 ， 但 


























是 从 前 面 儿 个 关于 封闭 性 的 例子 来 看 ， 这 人 句 话 还 是 很 有 说 服 力 的 。 笔 者 经 








常 听 到 有 人 说 在 实际 工作 
的 误解 。 


Theory is practical. 





























TT 








P 理 





论 并 没有 太 大 作用 ， 但 是 笔者 认为 那 是 极 大 








2-4 ”地 址 这 一 巨大 的 怪物 














> 为 什么 关系 数据 库 里 没有 指针 


Codd 提出 关系 模型 的 主要 动机 是 将 数据 存储 和 管理 从 物理 层 的 束缚 中 解放 出 来 。 关 系数 据 库 的 历史 
可 以 说 是 将 编程 行为 从 对 地 址 的 依赖 中 解放 出 来 的 奋斗 历史 。 


ED 

妇 据 C.J. Date 在 08tabase 力 Depth: 
AeBtional Theory for Practitioners 
一 书 中 的 描述 ， 数 据 独 立 性 意味 
着 我 们 能 够 自由 地 改变 数据 的 物 
蛙 存 储 和 访问 方式 ， 无 须 按照 数 
据 被 用 户 感知 的 方式 进行 相应 的 
修改 。 编者 注 

ED 

窗 自 《关系 数据 库 : 生产 力 的 实 
用 基础 》。 


ED 


商 自 《数据 库 系 统 导论 (第 7 版 ))。 

























































































| 地址 这 一 巨大 的 怪物 








Da 








在 关系 模型 诞生 之 前 的 研究 工作 中 ， 最 大 动机 是 明确 区 分 数据 管理 中 
的 宴 辑 层 和 物理 层 。 我 们 可 以 把 它 叫 作 数据 独立 性 目标 (data independence 
objective )。@ 





一 一 Codd 

一 般 说 到 关系 数据 库 中 没有 指针 时 ， 并 不 是 说 在 物理 层 也 完全 没有 指 

针 。 相 反 ， 在 物理 层 ， 指 针 是 存在 的 。 但 是 ， 就 像 前 面 说 过 的 那样 ， 在 关 
系 系统 中 ， 物 理 层 的 详细 存储 信息 对 用 户 是 不 可 见 的 。@ 



































—C.J. Date 


关系 数据 库 中 不 存在 编程 语言 中 一 般 被 称 为 “指针 ”的 物理 性 数据 结 
构 。 但 是 严格 来 说 , 它 其 实 是 存在 的 , 只 不 过 被 隐藏 了 , 因而 对 用 户 不 可 见 。 
不 过 ， 如 果 这 么 说 ， 可 能 会 有 人 列举 出 用 户 可 以 使 用 的 指针 ， 比 如 Oracle 
中 的 rowid 或 PostgreSQL 中 的 oid 来 反对 。 确实 ,用 户 可 以 使 用 这 些 指针 
但 是 它们 都 是 个 别 数据 库 厂商 违反 SQL 标准 而 进行 的 扩展 ， 而 标准 SQL 
一 直 在 努力 摆脱 指针 。 因 为 SQL 和 数据 库 都 在 极力 提升 数据 在 表现 层 的 
抽象 度 ， 以 及 对 用 户 隐藏 物理 层 的 概念 。 

但 是 反 过 来 ， 对 于 已 经 习惯 C 语言 中 指针 操作 的 程序 员 来 说 ， 这 种 
做 法 可 能 有 些 奇怪 。 时 不 时 就 会 有 人 批评 道 :“SQL 中 不 能 进行 指针 操作 ， 
非常 不 方便 ， 这 是 一 个 缺陷 ”。 
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本 节 将 整理 一 下 “摆脱 地 址 ”这 一 SQL 基本 设计 思想 ， 解 读 为 什么 
掉 向 过 程 语言 的 程序 员 不 喜欢 SQL。 





























在 进入 正题 之 前 ， 笔 者 想 先 强调 一 些 理所当然 的 事情 。 请 大 家 思考 时 
握 弃 掉 作 为 程序 员 的 一 些 先 入 为 主 的 观念 。 在 现实 世界 的 各 种 业务 中 ， 归 
根 到 底 ， 我 们 想 要 的 是 “数据 ”， 而 不 是 “用 于 表明 数据 位 置 的 地 址 ”。 地 
址 什么 的 只 会 增加 额外 的 工作 ， 丝 毫 不 会 让 我 们 感到 高 兴 。 这 一 点 ， 笔 者 
认为 怎么 强调 都 不 算 过 分 ， 因 为 计算 机 中 已 经 出 现 了 违背 我 们 意愿 的 地 址 
溢出 问题 。 还 有 ， 如 果 使 用 C 语言 或 者 汇编 语言 ， 程 序 员 甚至 不 得 不 在 编 
程 过 程 中 有 意识 地 操作 地 址 。 
但 是 在 1969 年 ， 数 据 库 的 世界 几乎 成 功 地 摆脱 了 地 址 。Codd 在 谈论 
关系 模型 理论 时 用 到 的 “数据 独立 性 目标 ”的 概念 ， 指 的 就 是 将 数据 库 从 
地 址 中 解放 出 来 〈 相 反 ， 关 系 模 型 之 前 的 数据 库 模型 ， 例 如 分 层 模 型 和 网 
状 模型 ， 都 严重 地 依赖 地 址 )。 当 时 的 编程 世界 还 在 进行 着 指针 操作 ， 因 
此 这 是 非常 超前 的 尝试 。 归 功 于 此 ， 现 在 的 数据 库 工 程 师 不 用 在 意 数 据 的 
存储 地 址 了 ， 他 们 只 需 关 注 数据 内 容 就 可 以 了 。 

关于 这 一 点 ，Codd 曾经 明确 地 这 样 说 过 。 









































































































































































































































在 计算 机 编 址 中 ， 位 置 的 概念 总 是 起 着 重要 作用 ， 从 插 板 地 址 开始 ， 
然后 绝对 数值 编 址 、 相 对 数值 编 址 以 及 带 有 算术 性 质 的 符号 编 址 (例如 ， 
汇编 语言 中 的 符号 地 址 A+3; 在 Fortran、Algol 或 PL/I 中 称 为 了 的 数组 中 
一 个 元 素 的 地 址 全 (It1, -2 )。 在 关系 模型 中 ， 我 们 通过 完全 关联 的 编 址 
来 代替 位 置 编 址 。 在 关系 数据 库 中 ， 每 个 数据 可 以 借助 于 关系 名 、 主 键 的 
值 以 及 属性 名 唯一 地 编 址 。 这 种 形式 的 关联 地 址 使 用 户 (是 的 ， 也 使 得 程 
序 员 ) 把 以 下 两 点 留 给 系统 来 完成 : (1) 确定 要 插入 数据 库 的 一 块 新 信息 的 





















































放置 细节 ; (2) 当 检 索 数 据 时 选择 适当 的 存 取 通 路 。@ 
摘自 《关系 数据 库 ， 生产力 的 实 
基础 
































需要 注意 的 是 ， 这 里 说 的 “地 址 ”不 仅 包 括 指针 操作 的 地 址 ， 还 包括 
数组 下 标 等 。Codd 对 所 有 依赖 地 址 的 数据 存储 和 管理 都 感到 厌烦 〈 正 因 
如 此 ， 最 初 的 关系 模型 中 并 没有 出 现 数组 )。 












































Database in Depth: Relational 
Theory for Practitioners, 
0’Reilly Media, 2005。 


过 于 强大 的 洞察 能 力也 带 来 了 一 
个 不 好 的 结果 ， 那 就 是 引入 了 臭 
名 昭著 的 多 值 逻辑 。 详 情 请 参考 
1-3 节 和 2-8 节 。 


标准 SQL 不 支持 自动 编号 功能 ， 
以 及 许多 理论 家 对 代理 键 持 批评 


2-4 ”地 址 这 一 巨大 的 怪物 












































和 Codd 长 期 共事 过 的 C.J. Date 曾经 像 下 面 这 样 赞扬 过 Codd 
出 的 努力 。 





j 心 做 





其 次 ,数据 库 中 的 关系 无 论 如 何 都 不 能 具有 指针 的 那些 属性 。 众 所 周知 ， 
关系 数据 库 出 现 以 前 ， 数 据 库 中 充满 了 指针 的 概念 ， 为 了 访问 到 想 要 的 数 
据 必 须 借 助 很 多 指针 。 对 这 些 数据 库 进行 应 用 程序 编程 时 很 容易 出 现 错误 ， 
而 且 数 据 不 能 由 终端 用 户 直接 访问 ,这 些 问题 都 是 指针 导致 的 。Codd 试图 
通过 关系 模型 解决 这 些 问 题 ， 并 取得 了 成 功 。@ 


























数据 的 管理 方法 ， 从 依据 位 置 变 为 了 依据 内 容 。 这 个 变化 刚好 与 从 物 
里 层 向 逻辑 层 〈 抽 象 化 )、 从 符号 同名 字 ( 意 义 化 ) 的 转变 相对 应 。 很 明显 ， 
这 给 系统 的 终端 用 户 和 程序 员 禹 来 了 非常 大 的 好 处 。 不 论 对 谁 来 说 ,“ 翔 
泳 太朗 ”这样 的 名 字 一 定 比 x002ab45 这 样 枯燥 无 味 的 地 址 更 加 方便 且 易 
于 理解 。 因 此 放弃 地 址 的 深刻 意义 是 , 通过 放弃 掉 系 统 中 没有 意义 的 东西 ， 
创造 出 一 个 易于 人 类 理解 的 有 意义 的 世界 。Codd 之 所 以 与 成 干 上 万 的 普 
通 程序 员 不 同 ， 原 因 在 于 他 对 人 类 认 知 特点 的 深刻 理解 8。 

“在 关系 模型 中 ， 我 们 通过 完全 关联 的 编 址 来 代 蔡 位 置 编 址 . ”Codd 的 
这 一 句 话 从 数据 模型 的 角度 回答 了 一 个 从 冯 : 诺 依 曼 型 计算 机 诞生 之 日 起 
就 一 直 困 扰 着 数据 库 工程 师 的 难题 ， 即 “如 何 逃 出 地 址 的 魔 咒 ”而 关系 
数据 库 的 成 功 也 证 明了 Codd 的 这 一 观点 的 正确 性 8。 也 就 是 说 ， 一 个 优 
雅 的 数据 结构 胜 过 一 百 行 杂 贾 般 的 代码 。 突 然 想 起 来 ，E.S.Raymond 也 曾 













































































































































































































































































的 态度 ， 都 是 出 于 同样 的 理由 。 














The Cathedral & the Bazaar: 
Musings on Linux and Open Source 
by an Accidental Revolutionary, 
0’Reilly Media，2001 年 。 中 文 
版 可 参考 《大 教堂 与 集 市 》( 机 
械 工业 出 版 社 ，2014 年 )。 
(http://www.catb.org/~esr/ 
writings/cathedral-bazaar/ ) 














说 过 类 似 的 话 。 
精巧 的 数据 结构 搭配 策 拙 的 代码 ， 远 远 好 过 笨拙 的 数据 结构 搭配 精巧 
的 代码 。9 


硕 编程 中 泛滥 的 地 址 

虽然 关系 模型 确实 是 优雅 且 强 大 的 数据 模型 ， 但 是 也 没 能 使 数据 库 彻 
底 地 摆脱 地 址 。 从 物理 层 来 看 ， 数 据 还 是 与 以 前 一 样 由 地 址 来 管理 。 但 是 
如 果 因 此 就 断言 Codd 的 “数据 独立 性 目标 ”半途 而 废 了 ,还 是 有 些 苛 刻 的 。 
(目前 ) 我 们 可 以 使 用 的 只 有 冯 … 诺 依 曼 型 计算 机 ， 它 不 仅 使 用 地 址 管理 
数据 ， 而 且 要 求 运 行 于 其 上 的 程序 也 要 这 样 。 因 此 ， 其 实 更 应 该 说 ，Codd 
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摘自 《程序 设计 能 从 冯 “' 诺 
风格 中 解放 出 来 吗 ? 程序 的 函数 
风格 及 其 代数 》( 收录 于 《ACM 
奖 演 讲 集 前 20 年 ( 1966-1985 ) 























依 曼 
































电子 工业 出 版 社 ，2005 年 )) ( 











原文 地 址 为 http://dl.acm. 
itation.cfm?id=359579 )。 
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是 在 受 














到 各 种 限制 的 情况 下 思考 出 了 关系 模型 这 一 折 中 的 方案 。 





即使 放眼 SQL 之 外 的 其 他 编程 语言 ， 各 个 编程 语言 的 历史 中 也 都 一 




















直 存 在 














着 “如 何 对 程序 员 隐 藏 地 址 ”的 课题 。 与 C 语言 以 及 汇编 语言 相 比 ， 








Pascal、Java、Perl 等 新 一 代 的 语言 都 在 努力 地 对 用 户 隐 藏 指针 。 在 这 一 
点 上 ， 关 系数 据 库 与 SQL 的 发 展 轨 迹 是 一 致 的 。 

对 汉 ' 诺 依 曼 型 计算 机 感到 不 满 的 人 中 ，Codd 的 态度 还 算 温和 ， 而 
有 些 人 的 批评 就 很 尖锐 了 ， 其 中 之 一 就 是 约翰 ' 巴克 斯 (John Backus， 
1924 一 2007)。 他 是 Fortran 语言 和 BNF 范式 的 发 明 人 ， 于 1977 年 获得 了 
图 灵 奖 (顺便 说 一 下 ，Codd 是 1981 年 的 图 灵 奖 获奖 者 )。 他 认为 ， 受 到 
依 曼 型 计算 机 数据 管理 方式 的 限制 ， 连 编程 的 世界 都 充满 着 巨 多 地 


冯 . 诺 
址 ， 地 


因 





还 涉及 


关于 编程 语言 受 限 于 地 址 的 结果 ， 约 输 . 巴克 斯 这 样 感慨 道 :“ 这 









































址 已 经 泛滥 





























此 程序 设计 基本 上 是 通过 冯 “' 诺 依 曼 瓶 颈 来 计划 和 实现 大 量 字 的 交 
通 的 细节 策划 ， 而 且 这 个 交通 的 许多 部 分 不 仅 涉 及 重要 的 数据 本 身 ， 而 且 


在 哪里 找到 它 。® 


























二 十 年 ， 编 程 语言 一 步 一 步 地 发 展 成 了 现在 这 样 腔 肿 的 样子 ” 从 他 发 出 
感慨 到 现在 又 过 了 二 十 年 , 这 一 状况 还 是 没有 得 到 改善 , 甚至 一 直 在 恶化 。 


因为 过 去 的 二 十 年 间 又 诞生 了 很 多 新 的 语言 ， 但 是 其 中 没有 一 种 语言 真正 
止 这 一 怪物 ， 实 现 真正 的 自由 。 
当然 ， 一 定 程 度 上 对 使 用 者 隐藏 地 址 也 确实 是 编程 语言 的 进步 。 但 是 


摆脱 地 刀 





深入 到 
方法 也 





这 样 的 ] 





和 以 往 


三 | 
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有 实际 意义 的 地 址 管理 
能 通过 把 数据 赋值 给 变量 。 






















































































内 部 看 的 话 ， 还 是 至 



























































I 处 都 充斥 着 如 同 洪 水 一 般 的 地 址 。 面 向 对 象 的 











没 能 成 为 通用 的 杜绝 地 址 泛滥 的 有 效 手 段 。 因 为 对 象 仍然 是 由 OID 
地 址 来 管理 的 ， 而 且 程序 变 得 复杂 后 ， 对 象 会 被 大 量 生 成 ， 这 样 就 









































的 面向 过 程 语言 中 大 量 声明 变量 没有 什么 区 别 了 。 









































的 ， 变 量 一 一 它 正 是 编程 语言 中 地 址 的 化 身 。 所 有 的 变量 都 由 没 
EE 着。 而 且 ， 要 想 在 面向 过 程 语 言 中 处 理 数 据 ， 只 






























































只 要 使 用 变量 ， 就 无 法 逃 出 地 址 的 麽 党 。 反 











过 来 说 ， 之 所 以 SQL 能 成 为 不 依赖 于 地 址 的 自由 的 语言 ， 也 是 因为 它 不 


使 用 变 


= 
里 。 
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与 SQL 一 样 不 使 用 变量 的 语言 还 有 Lisp。 它 是 一 种 年 龄 仅 次 于 
Fortran 的 高 级 语言 ， 已 经 可 以 称 得 上 是 编程 语言 中 的 “老将 ” 巧合 的 是 ， 






































约翰 . 巴克 斯 也 曾经 将 摆脱 汉 “' 诺 依 曼 风格 的 希望 寄托 在 它 〈 所 代表 的 函 
数 式 语言 ) 身上 。 
确实 ， 寄 希望 于 Lisp 或 Haskell 也 是 不 无 道理 的 。 就 笔者 个 人 而 言 ， 
也 希望 SQL 能 加 入 它们 的 战斗 行列 。 实 际 上 ，SQL 和 函数 式 语言 有 很 多 
De 9 共同 点 9， 作 为 编程 语言 ， 它 们 的 发 展 方向 也 很 相近 。 已 经 双双 离世 的 
中 首 2 的 约翰 :巴克 斯 和 Codd 应 该 不 会 反对 笔者 这 样 的 说 法 吧 ? 
1 声明 式 语言 SQL 和 函数 式 语言 Lisp 在 当今 的 编程 世界 里 都 处 于 边缘 ， 
而 且 从 来 没有 成 为 主流 语言 过 。 但 是 最 近 SQL 中 增加 了 许多 丰富 的 功能 ， 
渐渐 到 了 需要 重新 评价 SQL 和 函数 式 语言 优点 的 时 候 了 。“ 地 址 的 解放 战 
争 ” 最 终 有 怎样 的 归宿 ， 现 在 还 不 好 预测 ， 但 是 笔者 期 待 能 够 在 不 久 的 将 
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来 写 一 写 它 。 
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21 6 | GROUP BY 和 PARTITION BY 


区 物 以 “类 ” 聚 


在 SQL 的 功能 中 ,GROUP BY 和 PARTITION BY 非常 相似 一 一 也 可 以 说 几乎 一 样 。 而且， 两 者 
都 有 数学 的 理论 基础 。 本 节 将 以 集合 论 和 和 群 论 中 的 “类 ”这 一 重要 概念 为 核心 ， 闸 明 GROUP BY 和 


PARTITION BY 的 意义 。 





在 使 用 SQL 进行 各 种 各 样 的 数据 提取 时 ， 一 个 常用 的 操作 是 按照 某 
种 标准 为 数据 分 组 。 不仅 是 使 用 SQL 的 时 候 ， 在 日 常生 活 中 整理 或 者 分 
析 数 据 时 ， 我 们 也 经 常 需要 给 数据 分 组 。 

SQL 的 语句 中 具有 分 组 功能 的 是 GROUP BY 和 PARTITION BY， 它 们 
都 可 以 根据 指定 的 列 为 表 分 组 。 区 别 仅仅 在 于 ，GROUP BY 在 分 组 之 后 会 
把 每 个 分 组 聚合 成 一 行 数据 。 

例如 ， 有 下 面 这 样 一 张 存 储 了 几 个 团队 及 其 成 员 f 
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恩 的 表 。 











Teams 


member team age 
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对 这 张 表 使 用 GROUP BY 或 者 PARTITION BY， 可 以 获取 以 团队 为 单 
位 的 信息 。 无 论 使 用 哪 一 个 ， 都 可 以 将 原来 的 表 Teams 分 割 成 下 面 几 个 子 
集 ， 然 后 通过 suM 函数 进行 聚合 ， 或 者 通过 RANK 函数 计算 位 次 。 
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分 割 后 的 子 集 如 下 图 所 示 。 





一 般 情 况 下 集合 用 圆 来 表示 ， 本 书 中 其 他 章节 也 都 是 用 圆 来 画 维 因 图 
的 。 但 是 ， 为 了 使 “分 割 ”(cut) 操作 看 起 来 更 直观 ， 这 里 故意 使 用 了 直 
线 来 划分 子 集 。 

接 下 来 我 们 重点 关注 一 下 划分 出 的 子 集 ， 可 以 发 现 它们 有 下 面 这 3 个 
性 质 。 

1. 它们 全 都 是 非 空 集 合 。 

2. 所 有 子 集 的 并 集 等 于 划分 之 前 的 集合 。 

3. 任何 两 个 子 集 之 间 都 没有 交集 。 


图 灵 社 区 会 员 非洲 铜 (africancu@126.com) 专 享 尊重 版 权 
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因为 这 些 子 集 都 是 通过 表 中 存在 的 “team” 列 的 值 分 割 出 来 的 ， 所 以 
不 可 能 存在 空 集 8。 而 且 ， 将 分 割 后 的 子 集 全 部 加 起 来 ， 很 明显 就 是 原来 
全 的 集合 。 换 句 话说 ， 分 割 之 后 不 存在 没有 归属 的 成 员 。 

Pe 还 有 ， 不 存在 同时 属于 两 个 子 集 (= 同时 属于 多 个 团队 〉 的 成 员 。 一 
而 晤 ， 娄 学报 定 ,如果 原来 的 。 个 成 员 一 定 只 属于 分 割 后 的 某 个 子 集 。 所 以 我 们 也 可 以 认为 ，GRoUP BY 











和 PARTITION BY 都 是 用 来 划分 团队 成 员 的 函数 。 
在 数学 中 ， 满 足以 上 3 个 性 质 的 各 子 集 称 为 “类 ”(partition)， 将 原 
来 的 集合 分 割 成 若干 个 类 的 操作 称 为 "分 类 ” 这 些 都 是 群 论 等 领域 的 术语 。 
被 分 割 出 来 的 类 ， 和 “分 类 ”中 的 “类 ”意思 是 相同 的 ， 很 好 理解 。 
SQL 中 PARTITION BY 子 句 的 名 字 就 来 自 于 类 的 概念 〈 即 partition )。 
J BY 子 句 也 使 用 这 个 名 字 ， 但 是 因为 它 在 分 类 之 后 
进行 聚合 操作 ， 所 以 为 了 避免 歧义 而 采用 了 不 同 的 名 字 。 一 般 来 说 ， 我 
ee 在 SQL 中 也 一 样 ， 如 果 改 变 GROUP BY 
和 PARTITION BY 的 列 ， 生 成 的 分 组 就 会 随 之 变化 。 
在 SQL 中，GROUP BY 的 使 用 非常 频繁 ， 由 此 可 以 知道 我 们 身边 存在 
着 很 多 类 。 例 如 学 校 中 的 班级 和 学 生 的 出 生地 等 。 没 有 学 生 的 班级 是 没有 
存在 意义 的 ， 而 出 生地 为 两 个 省 的 人 应 该 也 是 不 存在 的 〈 出 生地 不 详 的 人 
可 能 会 有 ， 但 是 这 样 的 人 应 该 属于 列 为 NULL 的 类 )。 
扑克 牌 的 卡片 也 一 样 。52 张 卡片 根据 花 型 可 以 分 为 4 类 ， 根 据 颜色 
以 分 为 红色 和 黑色 两 类 。 属 于 同一 类 的 元 素 满足 相同 的 标准 ， 就 像 朋 友 
样 一 一 至 少 比 与 不 同类 的 元 素 之 间 的 关系 近 一 些 〈 数 学 上 这 种 关系 称 为 
“等 价 关 系 ”)。 用 一 个 不 算 很 贴切 的 词语 来 说 就 是 “ 物 以 类 聚 ”。 
在 群 论 中 ， 根 据 分 类 方法 不 同 ， 分 割 出 来 的 类 有 各 种 各 样 的 名 字 。 群 
论 中 有 很 多 非常 有 趣 的 类 ， 比 如 “剩余 类 ”。 正 如 其 名 ， 它 指 的 是 通过 对 
整数 取 余 分 割 出 的 类 《一 般 来 说 类 不 一 定 都 是 数 的 集合 ， 不 过 现在 我 们 只 
考虑 数 的 情况 )。 
例如 , 通过 对 3 取 余 给 自然 数 集合 N 分 类 后 , 我 们 会 得 出 下 面 3 个 类 。 
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余 0 的 类 : M1 = {0, 3, 6, 9,…} 
余 1 的 类 : M2 = {1, 4, 7, 10,…} 
余 2 的 类 : M2 = {2, 5, 8, 11, …} 
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从 类 的 第 2 个 性 质 我 们 知道 ， 这 3 个 类 涵盖 了 全 部 自然 数 。 可 以 用 下 
面 的 公式 来 描述 这 种 情况 。 





M1+M2+M3=N 


我 们 将 这 3 个 类 称 为 “ 模 3 剩余 类 ” 模 指 的 是 除数 ， 英 文 是 
Modulo。 与 类 相 比 ， 模 的 概念 稍微 有 些 抽象 ， 不 太 好 理解 。 

模 在 SQL 中 也 有 实现 ， 就 是 取 模 函数 Mop。 虽 然 标准 SQL 中 没有 定 
义 它 ， 但 是 大 部 分 数据 库 中 都 有 实现 〈SQL Server 中 使 用 % 运算 符 )。 在 
SQL 中 一 般 是 下 面 这 样 的 用 法 。 




















































































































-- 对 从 1 到 10 的 整数 以 3 为 模 求 剩余 类 
SELECT MOD (num, 3) AS modulo, 





num 
FROM Natural 
ORDER BY modulo, num; 


| 


余 1 的 类 


图 执行 结果 


modulo num 


Le 1 
OO UND OJ 人 POA WO 


= 人 于 == 








剩余 类 也 有 很 多 有 趣 的 性 质 ， 可 以 有 广泛 的 应 用 。 举 一 个 例子 ， 求 剩 

自然 数 集合 分 割 成 大 小 相等 的 一 些 类 ， 所 以 在 需要 从 大 量 数据 中 
按照 特定 比例 抽样 的 时 候 非 常 方便 。 例 如 ， 使 用 下 面 的 查询 语句 可 以 随机 
地 将 数据 减 为 原来 的 五 分 之 一 《〈 表 中 没有 连续 编号 的 列 时 ， 使 用 Row _ 
NUMBER 函数 重新 编号 就 可 以 了 )。 
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-- 从 原来 的 表 中 抽出 ( 大 约 ) 五 分 之 一 行 的 数据 

SELECT * 
FROM SomeTbl 

WHERE MOD(seq, 5) = 0; 























-- 表 中 没有 连续 编号 的 列 时 ， 使 用 ROW_NUMBER 函数 就 可 以 了 
SELECT * 
FROM (SELECT col, 
ROW_ NUMBER() OVER (ORDER BY col) AS sed 
FROM SomeTbl1) 
WHERE MOD(seq, 5) = 0; 








当然 ， 实 际 上 表 中 数据 的 行 数 未 必 刚 好 是 5 的 倍数 ， 所 以 剩余 类 之 间 
的 大 小 也 不 一 定 相 等 。 但 是 , 上 面 的 查询 语句 肯定 满足 “随机 地 等 分 数据 ” 
这 一 随机 抽样 的 需求 。 

读 到 这 里 ， 对 于 GROUP BY 和 PARTITION BY 的 执行 过 程 ， 以 及 它们 
的 数学 基础 ， 大 家 是 否 有 了 更 深 的 理解 呢 ? 总 地 来 说 就 是 ，SQL 和 关系 数 
据 库 中 大 量 引 入 了 集合 论 、 群 论 中 的 成 果 。 

可 能 大 家 会 觉得 这 些 内 容 有 些 抽象 一 一 好 吧 ， 确 实 很 抽象 一 一 但 是 正 
因为 抽象 ， 才 有 了 广泛 的 应 用 。 数 学 理论 并 不 是 脱离 实际 的 游戏 ， 它 其 实 
隐藏 了 大 量 能 够 用 于 日 常 工作 的 技巧 。 但 是 如 果 只 是 等 待 ， 很 难 发 现 它们 
的 身影 。 工 程 师 们 只 有 通过 自身 的 努力 ， 在 理论 和 实践 之 间 搭 建 起 连通 的 
桥梁 ， 才 能 提高 自身 的 数学 应 用 能 力 。 
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很 多 软件 工程 师 在 习惯 7 C、COBOL、Java、Perl 等 面向 过 程 ( 至少 以 此 为 基础 的 ) 语言 之 后 ,不 
管 再 使 用 什么 语言 都 会 不 由 自主 地 用 面向 过 程 的 思维 方式 来 思考 问题 。 但 是 ， 对 于 SQL 这 种 非 面向 过 程 
语言 ， 如 果 想 灵活 运用 ， 就 必须 理解 它 独特 的 原理 和 机 制 。 


ED 
Joe Celko, Thinking in SQL 


(http://www.dbazine.com/ 
ofinterest/oi-articles/celko5/ ) 


ED 

是 一 种 认为 可 以 把 高 级 现象 还 原 

为 低级 的 基本 现象 的 学 说 。 
一 一 编者 注 


ED 
亦 称 “机 体 论 "。 用 系统 的 、 整 
体 的 观点 考察 有 机 界 的 理论 。 




















| 从 面向 过 程 思维 向 声明 式 思 维 、 
面向 集合 思维 转变 的 7 个 关键 点 









学 习 以 SQL 的 思维 方式 来 思考 问题 ， 对 于 很 多 程序 员 来 说 都 是 一 个 挑 
战 。 相 信 你 们 中 的 大 多 数 ， 在 职业 生涯 的 大 部 分 时 间 里 都 在 编写 面向 过 程 
语言 的 代码 。 如 果 有 一 天 ， 你 们 必须 编写 非 面 向 过 程 语言 的 代码 了 ， 那 么 
最 重要 的 就 是 将 顺序 的 思维 方式 改 为 集合 的 思维 方式 。® 









































一 一 Joe Celko 


正如 Joe Celko 所 说 ， 学 习 SQL 的 思维 方式 时 ， 最 大 的 阻碍 就 是 我 们 
已 经 习惯 了 的 面向 过 程 语言 的 思维 方式 。 有 具体 地 说 ,就 是 以 赋值 .条 件 分 支 、 
循环 等 作为 基本 处 理 单元 ， 并 将 系统 整体 分 割 成 很 多 这 样 的 单元 的 思维 方 
式 。 同 样 地 ， 文 件 系 统 也 是 将 大 量 的 数据 分 割 成 记录 这 样 的 小 单元 进行 处 
理 的 。 不 管 是 面向 过 程 语言 还 是 文件 系统 ， 都 是 将 复杂 的 东西 看 成 是 由 简 
单单 元 组 合 而 成 的 一 一 这 是 一 种 还 原 论 8 的 思维 方式 。 

SQL 的 思维 方式 ， 从 某 种 意义 上 来 说 刚好 相反 。SQL 中 没有 赋值 或 
者 循环 的 处 理 ， 数 据 也 不 以 记录 为 单位 进行 处 理 ， 而 以 集合 为 单位 进行 处 
理 。SQL 和 关系 数据 库 的 思维 方式 更 像 是 一 种 整体 论 @ 的 思维 方式 。 

如 果 硬 要 以 面向 过 程 的 方式 写 SQL 语句 ， 写 出 的 SQL 语句 要 么 长 目 














































































































































































































一 一 编者 注 











复杂 ， 可 读 性 不 好 ， 要 么 大 量 借助 于 存储 过 程 和 游标 ， 这 样 就 又 会 回 到 已 
经 习惯 的 面向 过 程 的 世界 。 

为 了 熟练 掌握 SQL， 我 们 必须 理解 并 运用 支配 SQL 和 关系 数据 库 世 
界 的 独特 原理 。 原 理 或 者 理论 只 靠 理解 是 不 够 的 ， 我 们 必须 在 实际 工作 中 
使 用 它们 ， 才 能 让 它们 发 挥 作 用 。 这 也 是 贯穿 全 书 的 一 个 观点 。 发 挥 出 全 
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部 功能 的 SQL， 其 表达 能 力 丝毫 不 逊 于 面向 过 程 语言 。 

本 节 将 总 结 几 个 关键 点 ， 帮 助 大 家 将 面向 过 程 的 思维 习惯 转换 为 SQL 
的 思维 习惯 。 如 果 这 些 关 键 点 能 有 效 地 帮助 大 家 在 日 常 工作 中 实践 面向 集 
合 的 思维 方式 ， 笔 者 将 倍 感 欣慰 。 


































































































FP" 1. 用 CASE 表达 式 代替 IF 语句 和 CASE 语句 。SQL 
更 像 一 种 函数 式 语 言 


在 面向 过 程 语言 中 ， 条 件 分 文 是 以 “语句 ”为 单位 进行 的 。 而 在 SQL 
中 ， 条 件 分 支 是 以 语句 中 的 “表达 式 ” 为 单位 进行 的 。SQL 还 可 以 在 一 个 
SELECT 语句 或 UPDATE 语句 中 ， 表 达 与 面向 过 程 语言 一 样 非常 复杂 而 且 
灵活 的 条 件 分 支 ， 不 过 这 需要 借助 CASE 表达 式 。 
之 所 以 叫 它 cASE“ 表 达 式 ”而 不 是 CASE“ 语 句 ”(statement)， 是 因 
为 CASE 表达 式 与 1+(2-4) 或 者 (x*y) /z 一 样 ， 都 是 表达 式 ， 在 执行 时 会 
被 整体 当 作 一 个 值 来 处 理 。 既 然 同样 是 表达 式 ， 那 么 能 写 1+1 这 样 的 表达 
_ 。 式 的 地 方 就 都 能 写 CASE 表达 式 8， 而 且 因 为 CASE 表达 式 最 终 会 作为 一 
个 确定 的 值 来 处 理 ， 所 以 我 们 也 可 以 把 cass 表达 式 当 作 聚 合 函数 的 参数 


以 理解 成 “变量 个 数 为 0 的 表达 
”来 使 用 。 










































































































































































笔者 曾经 见 过 一 些 局 限于 面向 过 程 语言 的 思维 方式 的 写法 ， 以 语句 为 
单位 进行 条 件 分 支 从 而 导致 写 出 的 SQL 语句 非常 爱 肿 的 事例 。 其 实 如 果 
以 “表达 式 ” 为 单位 进行 条 件 分 支 ， 那 么 用 非常 简洁 且 易 读 的 代码 就 能 ; 
成 同样 的 效果 。 
对 于 任意 输入 返回 的 都 是 一 个 值 一 一 从 这 个 角度 来 说 ， 我 们 还 可 以 把 
CASE 表达 式 看 作 一 种 函数 。 因 此 使 用 cASE 表达 式 时 的 思维 方式 与 使 用 函 
数 式 语言 时 是 相似 的 。Lisp 语言 也 支持 使 用 cond 或 case 来 描述 条 件 分 文 ， 
但 是 它们 都 是 函数 ， 这 一 点 和 面向 过 程 语 言 中 的 IF 语句 不 同 。 因 此 Lisp 
语言 与 CASE 表达 式 一 样 ， 不 是 以 语句 而 是 以 表达 式 〈 函 数 ) 为 单位 进行 
条 件 分 支 的 ， 返 回 的 结果 都 是 一 个 值 (Lisp 中 的 列表 也 可 以 看 成 一 个 值 ， 
这 一 点 与 SQL 不 同 ， 但 是 相信 将 来 SQL 也 可 以 处 理 复合 型 的 数据 )。 
下 面 列举 了 两 者 的 写法 ， 比 较 一 下 。 
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'Lisp 中 使 用 cond 函数 进行 条 件 分 支 











= x 1) 'x 是 11) 
人 2 3) 是 2) 
( 


t 'x 是 1 和 2 以 外 的 数 ')) 
































--SQL 中 使 用 CASE 表达 式 进 行 条 件 分 支 
CASE WHEN x = 1 THEN 'x 是 1' 
WHEN x = 2 THEN 'x 是 2' 
ELSE 'x 是 1 和 2 以 外 的 数 ， 
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可 以 看 到 ， 除 了 Lisp 代码 中 使 用 了 波兰 式 写 法 之 外 ， 两 者 实现 的 功 





能 都 是 一 样 的 。 因 为 条 件 中 可 以 典 套 条 伯 





























这 一 点 也 是 相同 的 。 因 此 已 经 习惯 函数 式 语 言 的 人 应 该 很 容易 理解 


中 的 cASE 表达 式 ， 反 过 来 说 也 是 一 样 的 。 












































相连 通 的 关键 点 ， 加 深 对 多 种 编程 语 























言 的 理解 是 非常 重要 的 。 








参考 一 1-3 节 


F， 所 以 支持 表达 多 层 条 件 分 文 ， 


| 此 可 见 ， 找 到 让 编程 语 





SQL 
言 豆 








SQL 中 没有 专门 的 循环 语句 。 








~ 








Sak 


在 关系 操作 中 ， 应 该 将 关系 整体 作为 操作 和 


显然 ， 这 是 提高 数据 查询 终端 用 户 的 





高 应 用 程序 员 的 生产 效率 。@ 
摘自 《关系 数据 库 : 生产 力 的 实 
用 基础 》% 

















面向 过 程 语言 在 循环 时 经 常用 到 








日 > 














然 可 以 使 用 游标 实现 循环 ， 但 

















生产 效率 的 必要 条 件 ， 同 时 也 利 


是 这 


单 的 话 还 是 面向 过 程 的 做 法 ， 和 纯粹 的 SQL 没有 关系 。SQL 在 设计 之 初 ， 
有 意 地 避免 了 循环 。 这 一 点 ， 我 们 从 Codd 的 话 中 就 可 以 明白 。 


入 对 象 。 目 的 是 避免 循环 。 


于 提 


的 处 理 是 “控制 、 中 断 ” 在 SQL 中 ， 
这 两 个 处 理 可 以 分 别 用 GROUP BY 子 句 和 关联 子 查 询 来 表达 。 其 中 ， 对 于 























SQL 语言 的 初学 者 来 说 ， 关 联 子 查询 可 能 不 太 好 理解 ， 但 是 这 个 技术 非 




















常 适合 用 来 分 割 处 理 单元 。 面 向 过 程 
两 个 技术 代 葵 。 























语言 中 使 用 的 循环 处 理 完全 可 以 


















































j 这 





笔者 曾经 听 说 过 一 些 让 人 与 笑 不 得 的 写法 ， 比 如 原本 用 GROUP BY 聚 
合 一 下 就 能 实现 的 功能 , 写 SQL 的 人 因为 执 抛 于 面向 过 程 语 言 的 思维 方式 ， 
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非 要 先 用 SELECT 选 出 需要 的 行 然 后 再 使 用 游标 一 行 一 行 地 聚合 。 
请 大 家 牢记 ，SQL 中 没有 循环 ， 而 且 没有 也 并 不 会 带 来 什么 问题 。 
因为 去 掉 普 通 编程 语言 中 的 循环 正 是 SQL 语言 设计 之 初 的 目的 之 一 。 
































参考 一 1-6 节 、1-7 节 


已 经 习惯 面向 过 程 语言 和 文件 系统 的 工程 师 们 (这 几乎 包括 所 有 工程 
师 ) 都 有 将 关系 数据 库 的 “ 表 ” 类 比 成 “文件 ”来 理解 的 毛病 。 

从 某 种 意义 上 来 说 ， 这 也 是 没有 办 法 的 事情 。 在 理解 未 知 的 概念 时 ， 
我 们 首先 会 根据 已 经 理解 的 概念 去 理解 一 一 这 是 一 种 行 之 有 效 的 方法 ， 也 
几乎 是 唯一 的 方法 。 但 是 在 理解 达到 某 种 程度 之 后 ， 我 们 必须 放弃 对 旧 概 
念 的 依赖 。 将 表 看 成 文件 的 最 大 问题 是 会 误 认 为 表 中 的 行 是 有 顺序 的 。 

对 于 文件 来 说 ， 行 的 顺序 是 非常 重要 的 。 打 开 文本 文件 时 ， 如 果 各 行 
按照 随机 的 顺序 展示 ， 那 么 文件 是 没 法 使 用 的 。 但 是 在 关系 数据 库 中 ， 从 
表 中 读 取 数据 时 的 的 确 确 会 发 生 这 样 的 情况 。 读 出 的 数据 不 一 定 是 按照 
INSERT 的 顺序 排列 的 ， 因 为 SQL 在 处 理 数 据 时 不 需要 它们 这 样 。SQL 在 
处 理 数据 时 可 以 完全 不 依赖 顺序 。 

关系 数据 库 中 的 表 ( 关 系 ) 是 一 种 数学 上 的 “和 集合”。 表 有 意 地 放弃 了 
行 的 顺序 这 一 形象 的 概念 ， 从 而 使 它 具 有 了 更 高 的 抽象 度 。 文 件 和 表 原 本 
就 是 不 同 的 概念 ， 两 者 之 间 自 然 会 有 些 不 一 致 。 与 其 将 表 比 作 排 列 整齐 
的 书架 , 还 不 如 说 它 更 像 是 随意 堆放 各 种 物品 的 “玩具 箱 ” 或 者 “袋子 ”。 

如 果 没 有 意识 到 这 一 点 而 继续 依赖 顺序 ， 那 么 我 们 就 容易 写 出 复杂 
用 且 可 移植 性 不 好 的 代码 。 例 如 ， 在 定义 视图 时 指定 ORDER BY 子 句 (如 
果 某 种 数据 库 支 持 这 种 写法 ， 那 么 它 本 身 就 有 问题 )， 或 者 轻易 地 使 用 
"量子 力学 ' 详细 描述 的 是 物质 。“”Oracle 中 的 rownum 这 样 依赖 具体 实现 的 “ 行 编号 ” 列 ， 都 是 典型 的 依赖 
| 顺序 的 不 好 的 写法 。 
宗 站 扩 以 和 天 家 日内 准 季 由 东 物理 学 泰斗 费 恩 曼 (Richard Phillips Feynman) 曾经 这 样 告诫 即将 开 


西 没有 任何 相似 性 。 它 不 像 波 
动 ， 也 不 像 子 。 和 云 、 失 击 运 。。 始 学 习 量子 力学 的 学 生 们 : 理解 这 门 新 学 问 时 ， 不 要 和 你 们 学 习 过 的 牛顿 


动 、 弹 簧 秤 等 一 切 大 家 见 到 过 的 
东西 都 不 一 样 。( The Feynnan ”力学 进行 类 比 ， 量 子 和 你 们 至 今 为 止 了 解 过 的 任何 东西 都 不 一 样 9。 
Lectures on Physics, Addison 


Wesley，1965 年 ) 学 习 新 的 概念 时 ， 我 们 需要 暂时 舍弃 掉 旧 的 概念 ， 或 者 最 起 码 要 把 旧 
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的 概念 用 括号 括 起 来 ， 再 拿 它 与 新 的 概念 对 比 。 这 种 学 习 方 法 并 不 新 鲜 ， 
是 长 期 以 来 一 直 被 人 们 普遍 使 用 的 正面 攻击 法 。 但 是 ， 正 面 攻击 法 往往 是 
最 困难 的 。 这 是 因为 ， 在 舍弃 已 经 习惯 了 的 风格 时 ， 需 要 的 不 只 是 理智 ， 
还 有 勇气 。 











































































































参考 一 1-4 节 、1-9 节 、1-10 节 


前 面 说 过 , 表 的 抽象 度 比 文件 更 高 。 文 件 紧 密 地 依赖 于 它 的 存储 方法 ， 
日 是 SQL 在 处 理 表 或 视图 时 ， 丝 毫 无 需 在 意 它们 是 如 何 存 储 的 〈 不 考虑 
性 能 的 情况 下 )。 虽 然 我 们 很 容易 把 表 看 成 与 文件 一 样 的 东西 ,但 是 实际 上 ， 
一 张 表 并 非 对 应 一 个 文件 ， 读 取 表 时 也 并 不 是 像 读 取 文 件 一 样 一 行 一 行 地 
进行 的 。 
里 解 表 的 抽象 性 的 最 好 的 方法 是 使 用 自 连接 。 原 因 很 显然 ， 自 连接 本 
身 就 是 基于 集合 这 一 高 度 抽象 〈 也 可 以 说 成 自由 ) 的 概念 的 技术 。 在 SQL 
语句 中 ， 我 们 给 同一 张 表 赋予 不 同 的 名 称 后 ， 就 可 以 把 这 两 张 表 当成 不 同 
的 表 来 处 理 。 也 就 是 说 ， 通 过 自 连接 ， 我 们 可 以 添加 任意 数量 的 集合 来 处 
里 。 这 种 高 度 自由 正 是 SQL 的 魅力 及 力量 所 在 。 
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参考 一 1-2 节 


支撑 SQL 的 基础 理论 ， 除 了 集合 论 ， 还 有 谓词 逻辑 ， 有 具体 地 说 ， 是 
一 阶 谓词 逻辑 。 谓 词 逻辑 有 100 多 年 的 历史 ， 是 现代 逻辑 学 的 标准 逻辑 体 
系 〈 因 此 ， 在 逻辑 学 领域 不 加 解释 地 提 到 “逻辑 ”时 ， 一 般 都 指 一 阶 谓词 
逻辑 )。 
在 SQL 中 ， 谓 词 逻 辑 的 主要 应 用 场景 是 “将 多 行 数据 作为 整体 ”处 
理 的 时 候 。 谓 词 逻 辑 中 具有 能 将 多 个 对 象 作为 一 个 整体 来 处 理 的 工具 “ 量 
化 符 ” 对 于 SQL 来 说 ， 量 化 符 就 是 EXISTS 谓词 。 
EXISTS 的 用 法 和 IN 很 像 ， 比 较 好 理解 。 不 过 ， 我 们 更 应 该 灵活 掌握 
的 其 实 是 其 否定 形式 一 一 NOT EXISTS 的 用 法 。 可 能 是 因为 SQL 在 实现 量 
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化 符 时 偷懒 了 〈?)， 两 个 量化 符 只 实现 了 一 个 。 因 此 ， 对 于 SQL 中 不 具备 
的 全 称 量化 符 ， 我 们 只 能 通过 在 程序 中 使 用 NoT EXISTS 来 表达 。 

说 实话 ， 使 用 NOT EXISTS 的 查询 语句 ， 可 读 性 都 不 太 好 。 而 且 ， 
为 同样 的 功能 也 可 以 用 HAVING 子 句 或 者 ALL 谓词 来 实现 ， 所 以 很 多 程序 
员 都 不 太 愿 意 使 用 它 。 但 是 ，NoT EXISTS 有 一 个 很 大 的 优点 ， 即 性 能 比 
HAVING 子 句 和 ALL 谓词 要 好 得 多 。 

在 优先 考虑 代码 的 可 读 性 时 ， 我 们 没 必要 强行 使 用 NOT EXISTS 来 表 
达 全 称 量化 。 但 是 也 有 需要 优先 考虑 性 能 的 时 候 ， 为 此 我 们 有 必要 理解 通 
过 德 . 摩根 定律 和 NOT EXISTS 来 表达 全 称 量化 的 方法 。 


























































































































































































































参考 一 1-8 节 、1-9 节 


虱 ; 6. 学 习 HAVING 子 句 的 真正 价值 


,ss 
HAVING 子 句 可 能 是 SQL 诸多 功能 中 最 容易 被 轻视 的 一 个 。 不 知道 它 
的 真正 价值 是 一 个 很 大 的 损失 。 可 以 说 ，HAVING 子 句 是 集中 体现 了 SQL 
> 面向 集合 理念 的 功能 。 多 年 以 来 ， 笔 者 一 直 认 为 掌握 SQL 的 思维 方式 
的 最 有 效 的 捷径 就 是 学 习 HAVING 子 句 的 用 法 。 
这 样 说 的 原因 是 ， 与 WHERE 子 名 不 同 ，HAVING 子 句 正 是 设置 针对 集 
合 的 条 件 的 地 方 ， 因 此 为 了 灵活 运用 它 ， 我 们 必须 学 会 从 集合 的 角度 来 理 

数据 。 通 过 练习 HAVING 子 句 的 用 法 ， 我 们 会 在 不 经 意 间 加 深 对 面向 集 
这 个 本 质 的 理解 ,真是 一 举 两 得 。 此 外 ,在 使 用 HAVING 子 句 处 理 数据 时 ， 
常用 的 方法 是 下 面 即将 介绍 的 方法 一 一 画 圆 。 
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参考 一 1-4 节 、1-10 节 


面向 过 程 语 言 在 不 断 发 展 的 过 程 中 积累 了 许多 用 于 辅助 编程 的 视觉 工 
有 具 。 特 别 是 产生 于 1970 年 并 发 展 至 今 的 结构 图 (structure diagram) 和 数 
据 流 图 (data flow diagram), 它们 已 经 成 为 业内 的 标准 ,并 有 着 很 好 的 效果 。 
这 些 图 一 般 都 用 长 方形 表示 处 理 过 程 ， 用 箭头 表示 数据 的 流转 方向 。 

但 是 ， 这 些 传统 工具 并 不 能 用 于 辅助 SQL 的 编程 。SQL 只 是 用 来 描 
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述 所 需 数据 的 查询 条 件 的 ， 并 不 能 描述 动态 的 处 理 过 程 。 表 也 只 是 用 来 描 
态 的 数据 而 已 。 举 个 例子 ， 写 SQL 的 过 程 就 像 是 打出 招聘 广告 ， 加 

上 “35 岁 以 下 ”或 “不 限 经 验 ” 等 条 件 。 而 实际 查找 符合 条 件 的 人 才 的 
工作 是 由 数据 库 来 做 的 。 
目前 ， 能 够 准确 描述 静态 数据 模型 的 标准 工具 是 维 恩 图 ， 即 “ 圆 ”。 
通过 在 维 恩 图 中 画 柑 套子 集 ， 可 以 很 大 程度 地 加 深 对 SQL 的 理解 。 这 是 
因为 ,组 套子 集 的 用 法 是 SQL 中 非常 重要 的 技巧 之 一 。 例 如 ，GROUP BY 

ED 或 者 PARTITION BY 将 表 分 割 成 一 些 称 为 “类 ”的 子 集 8， 以 及 冯 … 诺 依 


类 是 GROUP BY 和 PARTITION BY 
































































































































































































































































































































的 芋 础 ， 关 于 类 的 板 仿 ， 庄 参 汉 。” 曼 型 递归 集合 、 用 来 处 理 树 结构 的 腐 套 子 集 模型 , 都 是 子 集 的 代表 性 应 用 。 
So 能 否 深刻 理解 并 灵活 使 用 幅 套 子 集 (= 递归 集合 )， 可 以 说 是 衡量 SQL 编 

程 能 力 是 否 达到 中 级 水 平 的 关键 。 

面向 过 程 的 思维 方式 面向 集合 的 思维 方式 
SO 

注 @ 动作 电影 领域 的 大 神 李 小 龙 曾 说 过 一 句 名 言 ， 不 要 思考 ， 去 感受 @。 
即 Donmt think, feel 一 一 编者 注 二 NN 、 i > 

同样 ， 数 据 库 领 域 的 大 神 Joe Celko 也 说 过 类 似 的 名 言 : 不 要 画 长 方形 和 
\ 注 @ 箭头 ， 去 画 圆 86。 这 句 话 非常 精辟 。 
摘自 《SQL 编程 风格 》9.7 节 “ 不 

久 方 框 和 箭头 的 方式 思考 ”以 


























及 9.8 节 “ 画 圆圈 和 集合 图 "。 参考 一 1-4 节 、1-7 节 
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第 2 章 关系 数据 库 的 世界 





| SQL 和 递归 集合 












> SOL 和 集合 论 之 间 


从 集合 论 的 角度 思考 是 提升 SQL 编程 能 力 的 关键 。 特 别 是 理解 嵌 套 子 集 ， 即 递归 集合 的 使 用 方法 ， 
这 具有 非常 重要 的 意义 。 本 节 将 介绍 递归 集合 在 SQL 中 的 重要 性 。 





1-2 节 介 绍 了 使 用 非 等 值 自 连接 代 蔡 RANK 函数 来 求 位 次 的 SQL 语句 ， 
大 家 还 记得 吗 ? 如 果 不 记 得 ， 试 着 回想 一 下 使 用 关联 子 查询 求 累 计 值 的 查 
询 语 句 也 可 以 《参考 1-6 节 )。 这 两 节 都 简单 介绍 过 SQL 查询 的 基本 思维 
方式 ， 即 由 冯 “' 诺 依 曼 提出 的 基于 递归 集合 的 自然 数 定义 。 

第 一 次 接触 到 这 种 思维 方式 的 读者 可 能 会 觉得 非常 惊讶 。 虽 然 它 很 好 
地 说 明了 SQL 和 集合 论 之 间 有 着 非常 紧密 的 联系 ， 但 是 对 于 没有 深入 了 
解 “内 情 ” 的 人 来 说 ， 集 合 和 数 之 间 的 这 种 关系 还 是 比较 新 鲜 的 。 冯 “ 诺 
依 曼 究 竟 是 如 何 想到 “用 集合 定义 自然 数 ”这 样 非 同 寻常 的 方法 的 呢 ? 大 
家 有 这 样 的 疑问 也 不 算 奇 怪 。 本 节 将 介绍 一 下 相关 的 历史 背景 ， 解 答 一 下 
这 个 疑问 。 关 于 间 “' 诺 依 曼 提 出 递归 集合 这 一 概念 的 背景 ， 要 从 更 早 以 前 
说 起 。 


































































































冯 ' 庄 依 曼 提 出 用 递归 集合 定义 自然 数 ， 是 在 1923 年 发 表 的 论文 《 关 
于 超 限 序数 的 引入 》 中 。 这 是 他 发 表 的 第 二 篇 论文 。 不 过 ， 令 人 嫉妒 的 是 
当时 他 还 只 是 个 高 中 生 。 从 论文 标题 中 的 “序数 ”可 以 看 出 , 实际 上 冯 * 诺 
依 曼 提出 的 与 其 说 是 “自然 数 的 定义 ”还 不 如 说 是 “序数 的 定义 ”。 序 数 
可 以 理解 成 自然 数 的 别称 ， 即 在 强调 0 的 下 一 个 是 1，1 的 下 一 个 是 2，2 
的 下 一 个 是 3…… 这 种 顺序 时 的 名 称 〈 相 反 ， 在 不 强调 顺序 时 ， 自 然 数 
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有 “基数 ”这 样 一 个 别称 )。 

其 实 ， 从 冯 ， 诺 依 曼 的 定义 中 可 以 看 出 ， 先 定义 0， 然 后 用 0 定义 1， 
再 用 1 定义 2…… 整 个 过 程 都 是 有 顺序 的 。 关 于 这 个 定义 ， 我 们 在 学 习 自 
连接 的 时 候 已 经 了解 过 了 ， 现 在 再 来 看 一 下 。 




































































冯 … 诺 依 曼 提 出 的 自然 数 的 递归 定义 

自然 数 。 ”关注 自然 数 的 顺序 时 。 ”还原 成 集合 时 
分 

{2} 

{2, {0 














{9, {0}, {9, {2} 














定义 的 过 程 是 有 顺序 的 ， 对 吧 ? 或 者 反 过 来 说 ,我 们 可 以 从 大 数 妃 济 
到 0， 这 样 理解 起 来 可 能 更 容易 一 些 。 定 义 3 时 需要 2， 定 义 2 时 需要 1， 
定义 1 时 需要 0。 像 这 样 , 想 要 定义 某 个 数 时 ,必须 先 准备 好 它 的 “前 一 个 ” 
数 。 这 种 阶段 性 的 定义 方法 叫 作 “ 弟 归 定 义 ”。 在 SQL 中 ,就 是 通过 计算 “ 定 
义 了 各 自然 数 的 集合 中 的 元 素 个 数 ” 来 计算 位 次 的 。 

接 下 来 是 本 节 的 核心 内 容 。 其 实 , 就 采用 递归 的 方法 定义 自然 数 来 说 ， 
汉 : 诺 依 曼 并 不 是 最 早 的 。 在 他 之 前 ， 至 少 有 两 个 人 曾经 提出 过 这 种 方法 。 
其 中 一 位 是 伟大 的 哲学 家 弗 雷 格 (Friedrich Ludwig Gottlob Frege)， 他 几 
乎 以 一 己 之 力 创建 了 关系 模型 基础 之 一 的 谓词 逻辑 。 另 一 位 是 因 完 善 了 现 
代 集 合 论 体 系 并 提出 展 序 定理 和 选择 公理 而 闻名 的 数学 家 策 梅 洛 (Ernst 
Friedrich Ferdinand Zermelo)。 两 人 都 是 留 名 数学 史 的 伟大 人 物 。 

这 两 个 人 的 做 法 都 是 先 任意 指定 一 个 集合 表示 0， 然 后 按照 某 种 规则 
逐步 生成 表示 1 2, 3,… 的 集合 。 我 们 来 比较 一 下 他 们 两 人 的 做 法 和 冯 … 诺 
依 曼 的 做 法 的 区 别 。 
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第 2 章 关系 数据 库 的 世 细 





各 种 自然 数 的 递归 定义 


冯 ，… 诺 依 曼 方法 
(@ 


策 梅 洛 方法 。 弗 雷 格 方法 
人 {2} 





{9} 


{2} {9, {0}} 





{9, {@}} 


{O} {9, {0}, {8, {2 








{9, {0}, {9, {2}} 


{2 


{9, {0}, {9, {0}, {9, {0}, {9, {2}}} 








有 各 


{{ 





这 么 多 括号 看 起 来 有 点 眼 晕 吧 ? 





























过 不 





























自 的 特点 。 我 们 会 首先 注意 到 策 梅 洛 的 做 法 ， 它 
0 这 一 点 与 汉 ' 诺 依 曼 的 做 法 类 似 ， 想 要 生成 后 续 的 自 
增加 括号 就 可 以 了 。 例 如 ，30 这 个 数 可 以 像 下 


这 样 深层 肉 套 的 集合 ， 
































其 实 三 人 的 做 法 既 有 相似 的 地 方 ， 又 
很 简洁 。 以 空 集 代 表 


LE 











然 数 时 只 需 在 外 面 

















面 这样 表 示 。 


《人 人 人 人 人 人 人 人 区 人 不 不 了 了 了 了 了 



































即使 是 Lisp 程序 员 ， 看 到 了 也 会 
j 担 心 , 上面 这 个 集合 是 否 真 的 表示 30, 非常 容 易 验证 。 因 为 左边 〈 或 


一 跳 吧 ? 不 




















者 右边 ) 的 括号 有 30 个， 刚好 等 于 我 们 想 要 定义 的 数 。 这 里 说 一 下 ， 按 
照 汉 . 诺 依 曼 方法 ， 集 合 中 的 元 素 个 数 等 于 想 要 定义 的 数 。SQL 可 以 通 
过 coUNT 函数 计算 出 元 素 个 数 ， 与 汉 :' 诡 依 曼 方 法 的 定义 方式 兼容 性 很 好 。 








和 
集合 








目 反 ， 策 梅 洛 方法 不 太 适 合 在 SQL 中 使 用 


喇 


弗 雷 格 方法 和 冯 . 诺 依 曼 方 法 很 像 ， 区 别 在 于 不 
































(SQL 本 来 就 不 使 用 括号 表示 












































j 空 集 表 示 0， 而 了 




















包含 空 集 的 集合 来 表示 0。 从 时 间 上 看 ， 弗 雷 格 方法 提 


者 之 中 最 早 的 。 但 是 后 来 策 梅 洛 和 冯 ， 诺 依 曼 分 别 改 EF 





出 于 1884 年 ， 是 三 














了 它 。 冯 ， 诺 依 曼 

















的 








自己 


值 。 


个 可 贵 的 才能 是 善于 1 





















































通过 前 文 ， 我 们 理 























但 是 ， 当 前 仍然 有 


ea 














用 两 个 尚未 解决 的 问题 。 











鉴别 人 的 观点 ， 并 快速 地 加 以 改进 ， 从 而 提出 
的 新 观点 ， 这 个 才能 在 这 里 得 到 了 充分 的 展现 。 
笃 了 色 ， 诺 依 曼 提出 的 方法 在 历史 上 有 着 非凡 的 价 





1. 为 什么 自然 数 有 这 么 多 种 定义 ? 定义 一 般 不 都 是 只 有 一 种 ? 
2. 为 什么 要 使 用 集合 来 定义 自然 数 ? 
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这 两 个 疑问 提 得 很 有 道理 。 稍 后 我 们 将 从 第 一 个 开始 讨论 。 
在 思考 这 些 问题 的 过 程 中 ， 我 们 会 在 不 经 意 间 罕 得 二 十 世纪 初期 “ 现 
代数 学 黎明 期 ”的 情景 。 

















一 般 来 说 ， 我 们 在 学 习 0 或 者 1 这 种 “ 数 ” 的 概念 时 ， 需 要 结合 具体 
物品 的 个 数 来 理解 。 笔 者 现在 还 记得 小 学 数学 课本 里 画 着 的 苹果 或 者 橘子 。 
有 旦 是 显然 ， 如 果 要 考虑 数 的 一 般 定 义 ， 那 么 像 这 样 与 具体 物品 联系 起 来 的 
做 法 是 不 可 行 的 。 假 如 我 们 使 用 苹果 来 定义 1 这 个 数 ， 那 么 没有 见 过 苹果 
的 人 就 无 法 理解 这 个 定义 《使 用 橘子 也 是 一 样 )。 不 过 事实 上 ， 无 论 是 见 
过 苹果 的 人 还 是 没 见 过 苹果 的 人 ， 他 们 对 于 1 这 个 数 的 理解 都 是 一 致 的 。 
因此 , 我 们 必须 把 数 作为 不 依赖 于 任何 具体 物品 的 更 加 抽象 的 对 象 来 定义 。 

最 早 提出 自然 数 的 一 般 定 义 的 勇者 是 意大利 数学 家 皮 亚 诺 (Giuseppe 
Peano)。 他 在 1891 年 提出 ， 只 要 满足 一 定 的 条 件 ， 无 论 什 么 样 的 东西 都 
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可 以 作为 自然 数 ， 并 且 列 出 了 自然 数 必须 满足 的 5 个 条 件 。 这 就 是 现在 通 
ED 用 的 作为 自然 数 定义 的 “ 皮 亚 诺 公理 >?@。 这 种 定义 方式 跟 相亲 很 像 ， 例 
页 便 说 一 下 ， 皮 亚 诺 的 5 条 公 a i 
人 加 被 问 到 “希望 结婚 对 象 是 一 位 什么 样 的 男性 ”的 时 候 ， 我 们 一 般 不 直接 
i 回答 “销售 部 的 田中 先生 ”这 样 具体 的 某 个 人 ， 而 是 列举 出 “ 东 大 毕业 、 
它 的 后 继 自然 数 。 fr ee »》 议 样 ,从 乡 

3 御所 从 数 丰 主任 何 训 然 政 。 ”在外 企 工作 、 年 收入 1000 万 日 元 以 上 这 样 必须 满足 的 条 件 。 只 要 
的 后 继 自然 数 。 满足 这 些 条 件 ， 无 论 是 谁 都 可 以 作为 “结婚 对 象 ” 一 一 这 就 是 皮 亚 诺 的 态 
4. 不 同 的 自然 数 ， 拥 有 不 同 的 后 

继 自然 数 。 度 ， 某 种 意义 上 还 是 有 点 现代 人 的 洒脱 的 。 

5. 如 果 当 第 一 个 自然 数 满足 某 个 

性 质 ， 而 且 自 然 数 a 满足 这 个 皮 亚 诺 列 出 的 自然 数 必 须 满足 的 条 件 有 “存在 起 到 0 的 作用 的 东 




















性 质 时 ， 它 的 后 继 自然 数 也 满 ee ER 旺 加 
足 这 个 性 质 ， 则 所 有 的 自然 数 西 “没有 在 0 前 面 的 自然 数 等 ， 大 多 数 都 是 里 所 当然 的 。 这 些 相 当 于 


Wi 作为 公民 必须 遵守 的 基本 标准 ， 例 如 “不 加 入 黑社会 ”“ 不 赌博 ”等 。 其 
中 有 一 个 重要 的 条 件 与 我 们 当前 的 话题 相关 ， 那 就 是 “每 一 个 自然 数 a， 
都 具有 后 继 自 然 数 (successor)” 5 的 后 面 必 须 有 6，1988 的 后 面 必须 有 
1989， 这 也 是 相当 理所当然 的 条 件 。 如 果 “17 的 后 面 有 缺失 ， 直 接 到 了 
19”， 那么 这 样 的 自然 数 就 没什么 实用 价值 了 。 

像 这 样 得 出 某 个 自然 数 的 后 继 自然 数 的 函数 叫 作 后 继 函 数 ， 写 作 
suc(x)。 于 是 有 suc(5) 三 6、suc(17) 三 18。 因 此 ， 使 用 后 继 函 数 生 成 
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自然 数 时 ， 可 以 像 下 面 这 样 幅 套 使 
0 = 0 
Suelo 
2 Sue (seo 
2 sual(suealsue (oy 




















用 。 








这 里 需要 着 重 理 解 的 是 ， 我 们 并 没有 指定 该 后 继 函 数 的 内 部 实现 。 无 
论 什么 样 的 内 部 实现 ， 只 要 能 够 生成 下 一 个 自然 数 就 可 以 ， 这 是 一 个 比较 
宽松 的 条 件 。 如 果 还 用 结婚 对 象 的 要 求 来 比喻 ， 这 个 条 件 就 相当 于 “不 论 
是 什么 样 的 职业 ， 只 要 年 收入 1000 万 日 元 以 上 就 行 ” 也 就 是 说 ， 不 关心 






























































过 程 ， 只 重视 结果 。 



























































当然 ， 冯 ， 详 依 曼 等 三 人 思考 的 自然 数 中 也 都 存在 后 继 函 数 。 





























冯 “' 庄 依 曼 方 法 和 弗 雷 格 方法 的 后 继 函 数 : suc(a) =a U {a} 
策 梅 洛 方法 的 后 继 函数 : suc(a) = {a} 








可 以 看 出 ， 在 后 继 函 数 的 实现 方式 上 ， 冯 ' 诺 依 曼 方 法 和 弗 雷 格 方法 
































相同 ， 但 是 策 梅 洛 方法 与 它们 不 同 ， 不 过 哪 一 种 方法 都 没有 问题 。 不 管 从 
山梨 县 开始 爬 还 是 从 静 冈 县 开始 爬 ， 都 能 到 达 富 士 山 的 峰 项 。 同 样 ， 无 论 






































采用 哪 种 方法 ， 只 要 能 够 找到 后 继 























自然 数 就 可 以 了 。 


好 了 ， 到 这 里 ， 我 们 终于 给 出 了 第 一 个 问题 的 答案 。 其 实 冯 . 诺 依 曼 





等 人 的 主要 贡献 并 不 是 正确 地 定义 自然 数 。 上 自然 数 的 定义 是 

















皮 亚 诡 列 举 
































的 5 个 条 件 给 出 的 ， 汉 ' 诺 依 曼 等 人 只 是 根据 皮 亚 诺 公 理 生 成 了 自然 数 

















而 已 。 这 样 看 来 ， 冯 “' 诺 依 曼 等 人 的 工作 可 以 称 为 “构建 ”。 
接 下 来 我 们 来 解释 第 二 个 问题 。 构 建 自然 数 并 不 一 定 要 使 用 集合 。 在 




















计算 机 科学 相关 领域 还 有 一 种 使 





j 入 演算 函数 来 构建 自然 数 的 方法 。 使 



































j 和 演算 构建 的 自然 数 被 阿 隆 佐 


























. 印 奇 (Alonzo Church) 以 自己 的 姓氏 

















命名 为 了 “ 邱 奇 数 ”。 不过， 虽然 











区 名 叫 “ 数 ”其 本 质 却 是 输入 输出 均 为 





函数 的 高 阶 函数 。 我 们 仍然 可 以 像 





下 面 这 样 递归 地 生成 自然 数 。 
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0:=Afxx 
1:=A4frfx 

2 :=1 fx.fUx) 

3 一 4) 





冯 . 诺 依 曼 等 人 活跃 在 十 九 世 纪 未 至 二 十 世纪 初 ， 那 时 抽象 代数 还 没 
有 得 到 长 足 发 展 ， 因 此 他 们 并 没有 采用 这 种 高 度 抽象 的 定义 方式 ， 而 是 采 
] 了 在 当时 抽象 度 最 高 的 集合 来 进行 自然 数 的 构建 。 
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在 本 节 中 ， 从 使 用 SQL 计算 位 次 的 实际 操作 到 二 十 世纪 初期 的 数学 
史 ， 我 们 进行 了 非常 宽泛 的 讨论 。 是 不 是 觉得 跳跃 性 太 强 了 呢 ? 其 实 笔者 
认为 ， 理 论 和 实践 这 种 惊人 的 相近 正 是 SQL 和 关系 数据 库 充 满 魅 力 的 地 
方 。 在 关系 数据 库 这 扇 大 门 的 背后 ， 有 着 令 人 惊讶 的 广阔 世界 。 而 打开 这 
扇 门 的 钥 是 ， 当 然 就 是 我 们 的 SQL 语言 。 

一 开始 看 到 计算 位 次 的 查询 语句 时 ， 我 们 可 能 完全 不 知道 它 要 做 些 什 
么 ， 觉 得 它 像 咒 语 一 样 难以 理解 。 但 是 当 我 们 深入 思考 一 下 它 的 理论 基础 
之 后 , 就 会 发 现 它 其 实 是 某 个 数学 体系 的 一 部 分 。 而 这 个 “从 魔术 到 科学 ” 
的 理解 过 程 ， 对 于 系统 工程 师 和 程序 员 来 说 ， 才 是 至 上 的 乐趣 。 
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忆 浅 谈 逻 辑 学 的 历史 


SQL 采用 的 三 值 逻辑 属于 非 古 典 逻 辑 这 一 比较 新 的 逻辑 学 流派 。 在 逻辑 学 的 发 展 过 程 中 ， 长 期 占据 
统治 地 位 的 是 古典 逻辑 学 。 它 以 二 值 逻辑 为 前 提 ， 认 为 对 于 命题 ,我 们 一 定 能 够 判断 真 假 。 但 在 二 十 世 
纪 二 十 年 代 ， 逻辑 学 又 有 了 革命 性 的 发 展 。 本 节 将 简单 介绍 一 下 三 值 逻 辑 诞生 的 历史 背景 


辑 来 代 蔡 标 # 


| 人 类 的 逻辑 学 





为 了 兼容 NULL， 关 系数 据 库 选 择 了 允许 空 值 (unknown) 的 三 值 逻 


























LE 的 二 值 逻辑 。 关 于 这 个 选择 过 程 中 的 一 些 故 事 ，1-3 节 曾 详 








细 介 绍 过 , 想必 大 家 都 已 经 了 解 了 。 在 一 般 的 逻辑 学 中 , 命题 只 包含 “ 真 ” 
和 “ 假 ” 这 两 个 可 能 值 。 而 三 值 逻辑 除了 这 两 个 值 , 还 增加 了 表示 “未 知 ” 


状态 的 第 三 个 值 。 据说 人 
































昌 丁 途经 的 地 狱 之 门 上 写 着 这 样 的 话 :“ 进 入 此 门 者 ， 








先 抛 开 所 有 的 希望 吧 ” 那 2 
入 此 门 者 ， 先 适当 地 抛 开 命题 的 真 假 吧 ”。 
本 节 ， 我 们 暂时 把 关系 数据 库 搁 置 一 边 ， 来 回顾 一 下 三 值 逻辑 这 一 奇 


妙 的 理论 体系 的 背景 ， 即 逻辑 学 的 发 展 历史 ， 借 此 从 不 同 的 角度 深入 理 入 








, 三 值 逻 辑 的 大 门 上 大 概 写 着 这 样 的 话 吧 :“ 进 




















dd 





























三 值 逻辑 体系 的 意义 ， 以 及 为 什么 SQL 和 数据 库 选择 了 这 一 体系 等 。 


逻辑 学 家 卢 卡 西 维 茨 〈Jan Lukasiewicz, 1878 一 1956)。 他 和 提出 模型 论 的 塔 











历史 上 最 早 提 出 三 值 逻 














辑 (three-valued-logic) 体系 的 是 波兰 的 著名 

















尔 斯 基 (Alfred Tarski, 1902 一 1983) 及 列 斯 涅 夫 斯 基 (Stanislaw Lesniewski， 
1886 一 1939) 等 著名 的 数学 家 一 道 ， 开 启 了 战争 期 间 波 兰 数 学 和 哲学 发 展 


的 黄 

















人 金 时 期 。 函 数 式 语言 中 月 











到 的 波兰 式 写 法 (把 “3 十 2” 写 成 “十 3 2”) 


也 是 他 提出 的 ， 他 的 一 些 其 他 贡献 直到 现在 仍然 被 广泛 应 用 着 。 
在 二 十 世纪 二 十 年 代 ， 他 定义 了 “ 真 ”和 “ 假 ” 之 外 的 第 三 个 逻辑 值 
能 ”此 前 的 逻辑 学 中 ,命题 取 “ 真 *"“ 假 ”之 外 的 其 他 值 ， 根 本 就 是 


“全 


无 法 想象 的 。 当 时 的 主流 





























观念 认为 ， 如 果 命 题 是 一 种 描述 事实 的 语句 ， 那 
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么 当然 必须 是 有 真 假 的 。 

如 果 阅 读 过 卢 卡 西 维 次 的 论文 ,我们 会 发 现 他 用 来 表达 第 三 个 值 的 分 
类 其 实 包含 在 Codd 提出 的 “未 知 ” 分 类 里 。 他 曾 举 过 这 样 一 个 例子 : 关 
于 未 来 某 个 时 间 自 己 在 哪里 的 陈述 ， 我 们 现在 既 无 法 确定 它 为 真 又 无 法 它 
为 假 。 完 整 的 表述 有 点 长 ， 但 是 由 于 这 段 内 容 非 常 关 键 ， 所 以 这 里 就 直接 
引用 了 。 









































































































































我 认为 ， 明 年 的 某 一 个 时 间 点 〈 比 如 12 月 21 日 正午 ) 我 是 否 在 华沙 ， 
在 今天 这 一 天 看 来 无 法 肯定 也 无 法 否定 ， 这 并 不 矛盾 。 因 此 在 指定 的 时 间 
点 我 也 许 在 华沙 这 件 事 是 可 能 的 ， 但 却 不 是 必然 的 。 进 而 ,“ 明 年 的 12 月 
21 日 正午 我 也 许 在 华沙 ”这 个 命题 ， 在 今天 这 一 天 看 来 既 不 可 能 是 真 也 不 
可 能 是 假 。…… 因 此 ， 在 今天 这 一 天 ， 这 个 命题 的 值 只 能 是 一 个 全 新 的 值 ， 
不 同 于 表示 真 的 数值 “1”， 也 不 同 于 表示 假 的 数值 “0”。 我 们 可 以 用 “1/2” 
来 表示 这 个 值 。 它 的 含义 是 “可 能 "， 它 是 和 “ 真 "“ 假 ”并 列 的 第 三 个 值 。 

在 提出 命题 刘 辑 的 三 值 逻 辑 体系 的 背后 ， 有 着 上 面 这 些 思索 。@ 

卢 卡 西 维 蔚 ，Philosophical Remarks 


on Many-Valued Systems of 
Propositional Logic，1930 年 。 这 篇 





























文 首 次 提出 三 值 逻 辑 ， 非 常 有 纪念 意义 。 我 们 接 下 来 解释 一 下 
其 中 需要 特别 注意 的 两 个 论点 。 关 于 第 一 个 论点 ,我 们 从 前 文 也 可 以 看 出 ， 
卢 卡 西 维 菊 考虑 的 “可 能 ”这 一 真 值 的 本 质 ， 其 实 是 对 未 来 不 确定 性 的 描 
述 ， 丝 毫 没 有 Codd 提出 的 “不 适用 ”的 含义 。 虽 然 不 能 断言 ， 但 是 笔者 
认为 ， 可 能 对 于 卢 卡 西 维 欧 来 说 ，Codd 认为 “不 适用 ”的 那些 命题 是 完 
全 没有 意义 的 ， 所 以 他 根本 不 会 考虑 用 真 值 来 描述 吧 。 
第 二 个 论点 突破 了 一 个 命题 只 能 有 一 个 固定 真 值 的 观念 ， 开 拓 出 了 新 
的 思路 ， 认 为 命题 的 真 值 可 能 会 随时 间 发 生 “可 能 ”一 “ 真 ” 或 者 “可 
能 ”一 “ 假 ”这 样 的 变化 。 这 是 站 在 传统 逻辑 学 的 立场 上 无 法 想象 的 革命 
性 的 (或 者 说 是 超越 常识 的 ) 的 思考 方式 。 虽 然 卢 卡 西 维 葡 自身 并 没有 写 
明 其 思考 延伸 到 了 这 么 细致 的 地 方 ， 但 是 他 确实 表达 过 相近 的 观点 ， 认 为 
命题 的 作用 其 实 不 在 于 表达 事实 ， 而 在 于 反映 人 们 对 这 件 事 实 的 认 知 。 按 
照 这 个 观点 理解 ， 命 题 其实 不 存在 于 客观 世界 ， 而 存在 于 我 们 的 内 心 。 
从 提出 这 样 一 个 心理 学 式 命题 理论 的 贡献 来 看 ， 逻 辑 学 家 卢 卡 西 维 次 
确实 可 以 说 是 Codd 的 前 辈 ， 为 关系 数据 库 芮 定 了 理论 基础 。 


之 
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那么 ， 为 什么 三 值 逻辑 刚好 诞生 于 这 个 时 期 呢 ? 这 是 因为 ， 在 逻辑 学 
发 展 史 上 ， 二 十 世纪 二 三 十 年 代 刚 好 是 掀起 批判 古典 逻辑 学 运动 的 “革命 
时 期 ” 除了 三 值 逻 辑 ， 还 有 布 劳 威 尔 (Luitzen Egbertus Jan Brouwer) 和 
海 廷 (Arend Heyting) 等 人 创立 的 直觉 主义 逻辑 学 。 三 值 逻辑 通过 导入 第 
三 个 真 值 ， 从 语义 学 的 角度 对 二 值 逻 辑 发 起 了 挑战 ， 而 直觉 主义 逻辑 从 语 
法 学 的 角度 对 二 值 逻 辑 发 起 了 挑战 。 自 此 以 挫 杜 拉 朽 之 势 一 扫 十 九 世纪 后 
期 以 来 逻辑 学 停滞 不 前 的 阴 才 ， 非 古典 逻辑 学 迎 来 了 百花 齐 放 的 春天 。 
古典 逻辑 学 最 受 批判 的 理论 是 排 中 律 (A V ” A)， 以 及 支撑 它 的 二 
值 原理 。 排 中 律 是 一 条 公理 ， 意 思 是 “A 或 者 非 A 总 有 一 个 成 立 ”。 二 值 
原理 的 意思 是 “一 个 命题 必然 有 真 假 ” 虽然 二 值 原理 非常 简洁 ， 但 是 对 
于 我 们 人 类 而 言 ， 并 不 能 那么 轻易 地 认同 它 。 在 这 个 充满 不 确定 性 的 世界 
里 ， 无 法 判断 真 假 的 命题 难道 不 是 有 很 多 吗 〈 例 如 “ 神 是 存在 的 ”“ 存 在 
死 后 的 世界 ”“ 杀 人 是 罪恶 的 ”)。 

一 方面 ， 古 典 逻 辑 学 这 样 回答 这 个 问题 :“ 神 肯定 知道 所 有 命题 的 真 
假 ”。 作 为 神 ， 无 论 多 难 的 问题 都 能 瞬间 解决 ， 精 通 开天辟地 以 来 的 全 部 
历史 。 只 要 愿意 ， 神 还 能 进行 时 空 穿 梭 ， 因 为 神 是 全 能 全 知 的。 因此 十 







































































































































































































































































































































































































































































逻辑 学 被 称 为 “ 神 的 逻辑 学 ?@。 
把 十 典 逻辑 学 和 非 古 典 逻辑 学 分 ， 、 ER 本 
别称 为 “ 神 的 逻辑 学 ”和 “人 类 另 一 方面 ， 很 多 人 认为 既然 “ 神 的 逻辑 学 ”超出 了 人 类 的 认 知 范围 ， 



































的 逻辑 学 ”的 说 法 来 自 户 田山 和 


人 (和 SW) 。 那 么 为 什么 不 能 存在 能 够 忠实 反映 人 类 有 限 认 知 能 力 的 逻辑 学 呢 ? 卢 卡 西 
节 和 为 阶 理 字 二 《有 首 无。 维 获 和 布 劳 威 尔 是 最 早 公开 支持 这 种 逻 缉 学 的 学 者 。 他 们 将 逻辑 学 从 神 的 
手 里 移交 到 了 人 类 的 手 里 ， 或 者 说 是 将 逻辑 学 从 神 那 里 解放 了 出 来 。 反 过 

来 看 , 在 神 具有 极 高 权威 的 时 期 ， 人 类 是 没有 能 力 否定 二 值 原理 的 。 过 去 ， 

在 西方 ， 像 逻辑 学 家 这 样 的 知识 分 子 大 多 同时 也 是 神学 家 。 因 此 ， 怀 疑 神 

的 全 能 性 这 样 误 污 神 的 行为 是 不 允许 的 。 而 非 古典 逻辑 学 是 在 近代 ， 当 人 

类 认识 到 神 并 不 存在 之 后 才 诞生 的 。 

因此 不 难 想象 ， 这 种 近代 思维 方式 它 招来 了 大 量 来 自 同时 期 的 宗教 保 

守 人 士 的 反对 。 事 实 上 ， 布 劳 威 尔 身上 还 发 生 过 这 样 的 趣事 ， 在 某 次 演讲 

会 上 ， 他 说 出 了 自己 的 一 个 观点 一 -“ 在 圆周 率 的 小 数 部 分 ，9 将 重复 

出 现 10 次 ”这 个 命题 无 法 判断 真 假 。 有 一 位 听众 这 样 反 驶 : “也许 我 们 人 
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类 无 法 判断 , 但 是 神 肯 定 知道 它 的 真 假 ”。 讲 台 上 的 布 劳 威 尔 这 样 回答 :“ 但 
是 ， 我 们 没有 他 老人 家 的 电话 号 码 啊 ”。 

我 们 人 类 和 神 中 断 了 联系 一 一 布 劳 威 尔 和 卢 卡 西 维 茨 都 生活 在 这 样 一 
个 暗淡 的 时 期 。 人 类 和 神 失去 了 联系 之 后 ， 只 能 以 有 限 的 认 知 活 在 有 限 的 
世界 里 。 既 然 如 此 ， 多 出 一 种 与 人 类 有 限 的 认 知 相称 并 且 能 够 适当 地 描述 
这 个 充满 未 知 的 世界 的 新 的 逻辑 学 ， 难 道 不 是 一 件 好 事 吗 ? 



































































































































在 这 种 新 的 逻辑 学 中 ,命题 的 真 值 不 仅 有 “ 真 ” 和 “ 假 ”, 还 可 以 有 “无 
意义 ”“ 当 前 未 知 ”“ 了 矛盾 ”等 反映 各 种 认 知 的 值 。 于 是 道生 了 三 值 逻辑 ， 
而 且 允 许 三 个 以 上 的 真 值 的 多 值 逻 辑 学 (many-valued logic) 的 研究 也 在 




















































































































进行 中 @。 没 有 神 的 逻辑 学 一 人 类 的 逻辑 学 证 生 了 。 
多 值 逻 辑 非常 适合 用 来 描述 人 类 es : i 
含糊 的 认 知 ， 因 此 关于 它 的 一 个 数据 库 的 使 用 者 当然 是 人 类 ， 而 不 是 神 。 因 此 ， 数 据 的 表达 方式 也 应 





























ga。 ”该 基于 有 限 而 且 不 完善 的 人 类 的 认 知 ， 而 不 是 神 的 完美 无 缺 的 认 知 。 这 就 


ee me 是 关系 数据 库 采 用 三 值 罗 辑 的 原因 。 

无 限 多 值 逻辑 的 一 种 。 站 在 真 值 但 是 ， 这 种 面向 人 类 的 思维 方式 是 一 把 双 刃 剑 。 确 实 ， 通 过 采用 三 值 

已 经 扩展 到 无 限 个 的 今天 来 看 ， 

三 值 鸭 辑 和 四 信 交 辑 让 人 更 好 接 ” 你 辑 (主要 是 NULL 和 unknown)， 正 如 Codd 所 说 ， 关 系数 据 库 变 得 非常 

受 了 ， 难 道 不 是 吗 ? _ a ee 5 
接近 人 类 的 认 知 ， 而 且 有 具有 非常 灵活 的 表达 能 力 。 但 讽刺 的 是 ， 人 类 又 不 


得 不 引入 许多 不 太 直 观 的 奇怪 的 逻辑 运算 。 
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户 全 世界 的 数据 库 工程 师 团结 起 来 ! 
1-3 节 介 绍 了 SQL 中 的 三 值 逻辑 的 理论 背景 ; 2-8 节 又 介绍 了 它 的 历史 背景 。 本 节 将 在 此 基础 上 讨 
论 一 下 如 何在 实际 工作 中 处 理 NU0LL， 并 给 出 一 些 指 南 。 





成 千 上 万 的 数据 工程 师 们 ， 你 们 好 。 笔 者 是 消灭 NULL 委员 会 亚洲 分 
委 会 会 长 MICK。 笔 者 知道 , 大 家 每 天 都 在 忙 着 搭建 数据 库 \ 写 SQL 语句 、 
优化 查询 性 能 ， 以 及 帮 不 小 心 删除 数据 库 表 的 新 人 擦 屁股 ， 斗 志 昂 扬 地 支 
撑 着 研发 团队 的 运作 。 笔 者 今天 写 这 封 通告 的 目的 是 ， 让 大 家 彻底 了 解 昨 
天 在 美国 总 部 全 员 通 过 的 消灭 NULL 基本 宣言 。 

我 们 先 来 看 一 下 NULL 这 个 怪物 最 可 怕 的 地 方 : 一 开始 会 让 我 们 觉得 
很 好 用 ， 于 是 在 设计 系统 时 ， 我 们 会 非常 自然 地 保留 它 ， 但 当 注 意 到 问题 
的 时 候 ， 系 统 已 经 变 得 非常 复杂 、 低 效 、 不 符合 预期 了 ， 开 发 和 维护 也 变 
得 非常 困难 。 为 了 避免 NULL 带 来 的 问题 ， 我 们 首先 必须 了 解 它 的 本 质 ， 
理解 它 是 如 何在 我 们 不 经 意 间 迅速 地 给 系统 带 来 问题 的 。 其 实 笔者 已 经 想 
到 了 一 句 能 彻底 揭示 这 个 怪物 的 真面目 的 话 。 

本 节 将 从 NULL 的 问题 讲 起 ， 主 要 介绍 一 些 避 免 问 题 的 具体 方法 。 不 
过 这 些 方法 执行 起 来 非常 简单 ， 只 需 在 设计 的 时 候 稍微 注意 一 下 就 行 ， 因 
此 这 里 不 作 详细 讲解 。 本 节 将 揭示 这 些 方法 ， 当 然 笔者 也 希望 大 家 都 加 入 
到 消灭 NULL 的 运动 中 来 。 





































































































NULL 巷 人 讨厌 的 原因 ， 一 般 来 说 有 以 下 $ 个 。 














1. 在 进行 SQL 编码 时 ， 必 须 考虑 违反 人 类 直觉 的 三 值 逻 辑 。 
2. 在 指定 IS NULL、IS NOT NULL 的 时 候 ， 不 会 用 到 索引 ， 因 而 





2601@ 
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SQL 语句 执行 起 来 性 能 低下 。 

3. 如 果 四 则 运算 以 及 SQL 函数 的 参数 中 包含 NULL, 会 引起 “NULL 
的 传播 ”。 

4. 在 接收 SQL 查询 结果 的 宿主 语言 中 , NULL 的 处 理 方法 没有 统一 标准 。 

5. 与 一 般 列 的 值 不 同 ，NULL 是 通过 在 数据 行 的 某 处 加 上 多 余 的 位 
( bit ) 来 实现 的 。 因 此 NULL 会 使 程序 占据 更 多 的 存储 空间 ， 使 得 














第 1 个 原因 是 笔者 认为 必须 消除 NULL 的 最 重要 的 原因 ，1-3 节 已 经 讨 

过 ， 这 里 就 不 再 袭 述 了 笔者 时 不 时 就 会 听 说 有 这 样 一 群 家 伙 : 他 们 一 
边 肆意 地 使 用 NULL， 一 边 又 盲目 地 相信 SQL 是 遵从 二 值 逻 辑 的 。 我 们 必 
须要 尽快 改变 他 们 的 错误 想法 )。 第 2 个 原因 是 优化 性 能 方面 必须 要 注意 
的 ， 这 一 点 很 多 人 都 知道 。 对 于 第 3 个 原因 ， 我 们 来 稍微 解释 一 下 。 例 如 ， 
如 果 四 则 运算 中 包含 NULL， 那 么 运算 结果 也 肯定 都 是 NULL。 




























































































1 + NULL = NULL 
2 - NULL = NULL 
3 * NULL = NULL 
aA/ NULD = NULE 
NULLE®/ 0 = NUDLE 
从 最 后 一 个 例子 可 以 看 出 ， 就 连 除数 为 0 的 时 候 都 不 会 出 错 。 有 很 多 





SQL 函数 在 参数 为 NULL 时 都 会 返回 NULL, 这 种 现象 被 称 为 “NULL 的 传播 ” 
(NULL’”s propagate)。Propagate 有 “( 杂 草 ) 丛生 ”的 意思 ， 一 般 作 为 贬 
义 词 来 使 用 ， 刚 好 适合 形容 NULL 这 个 可 恶 的 家 伙 。 

关于 第 4 个 原因 和 第 5 个 原因 ， 是 不 是 很 少 人 知道 昵 ? 说 实话 ， 这 两 
个 问题 依赖 于 宿主 语言 和 DBMS 的 实现 方式 ,将 来 被 解决 掉 的 可 能 性 很 大 。 
但 是 ， 现 在 的 宿主 语言 很 多 都 不 支持 关系 模型 中 的 NULL， 因 此 这 两 个 仍 
然 是 比较 大 的 问题 。 既 然 Oracle 不 区 分 空 字符 串 和 NULL， 而 Visual Basic 
区 分 的 ， 那 么 我 们 就 有 足够 的 理由 来 消除 NULL。 



































































































































ft 


剧 j 并 不 能 完全 消除 NULL 























tn 


据 库 的 世界 里 ，NULL 是 很 难 完 全 消除 掉 的 。 此 外 ， 对 于 不 那么 重要 的 列 ， 


即使 存在 NULL， 在 工作 中 系统 工程 师 们 也 会 忽视 掉 吧 ? 
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无 法 完全 消除 NULL 的 原因 是 它 扎根 于 关系 数据 库 的 底层 中 。 仅 仅 靠 
在 表 中 所 有 列 加 上 NoT NULL 的 约束 是 不 够 的 。 因 为 即使 这 样 做 ， 在 使 用 
外 连接 ， 或 者 SQL-99 中 添加 的 带 CUBE 或 ROLLUP 的 GROUP BY 时 ， 还 是 很 
容易 引入 NULL 的 。 因 此 我 们 能 做 的 最 多 也 只 是 “尽量 ”去 避免 NULL 的 产生 。 
实际 上 , 如 果 合 理 利 用 , NULL 还 是 有 很 多 非常 方便 的 用 途 的 。 但 问题 是 ,“ 合 
里 使 用 ”NULL 正 是 最 困难 的 地 方 。NULL 最 恐怖 的 地 方 就 在 于 即使 你 认为 自 
己 已 经 完全 驾驭 它 了 ， 但 还 是 一 不 小 心 就 会 被 它 在 背后 捅 一 刀 。 
正 因为 如 此 ， 一 直 以 来 NULL 都 是 有 识 之 士 们 争 相 议论 的 话题 。Codd 
坚持 认为 NULL 是 关系 模型 中 不 可 或 缺 的 要 素 。 他 的 盟友 ， 也 是 当前 关系 
数据 库 领 域 的 领军 人 物 C.J. Date 却 是 消除 NULL 运动 的 超级 积极 分 子 。 大 
声 疾 呼 “驱逐 NULL 吧 ，NULL 是 一 切 问 题 的 元 凶 ” 的 他 ， 对 NULL 的 悄 恶 
程度 可 以 从 下 面 的 短文 中 清楚 地 感受 到 。 
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重要 的 是 ， 如 果 存 在 nul1， 那 么 我 们 讨论 的 就 不 是 关系 模型 了 (我 也 
不 知道 我 们 正在 讨论 的 是 什么 ， 反 正 不 是 关系 模型 ) null 出 现 之 后 ， 之 
前 已 经 构建 好 的 体系 立刻 就 崩塌 了 ， 一 切 就 都 回 到 了 一 张 白 纸 的 状态 。@ 


Database in Depth: Relational 
Theory for Practitioners, O’Reilly 


Media, 20056 从 个 人 心情 上 来 讲 ， 笔 者 很 想 成 为 C.J. Date 的 伙伴 ， 加 入 激进 派 的 
阵营 。 但 是 ， 作 为 一 线 的 数据 库 工程 师 ， 笔 者 感觉 还 是 Joe Celko 的 处 理 
方式 更 为 稳妥 。 因 此 我 们 亚洲 分 委 会 决定 将 下 面 这 段 Joe Celko 的 话 作为 
我 们 的 官方 指南 。 




























































































我 们 可 以 把 NULL 视 为 一 种 药品 : 适当 使 用 可 能 有 益 ,但 混用 会 导致 毁灭 。 
最 好 的 策略 是 尽 可 能 地 和 避免 适用 NULL， 并 在 不 得 不 使 用 时 适当 使 用 。@ 


摘自 《SQL 权威 指南 ( 第 4 版 )》 
( 人 民 邮 电 出 版 社 ，2012 年 )。 



































请 不 要 以 为 这 是 一 种 机 会 主义 ， 毕 竞 人 生 的 真理 绝 不 存在 于 追求 极端 
纯粹 的 激进 主张 里 。 这 是 必须 向 现实 妥协 的 地 方 。 
那么 ， 接 下 来 我 们 分 几 个 场景 来 讨论 一 下 消除 NULL 的 具体 做 法 。 




















剧 ; 编号 : 使 用 异常 编号 


大 家 使 用 的 数据 库 表 中 一 定 存 储 了 各 种 各 样 的 编号 。 例 如 , 企业 编号 、 
顾客 编号 、 行政区 划 编 号 、 性别 编号 , 等 等 。 像 性 别 这样 更 多 地 被 称 作 “标志 ” 








































































































ED 
编号 列 使 用 字符 帅 类 型 的 好 处 还 
有 两 个 。 

第 一 个 是 ， 很 多 时 候 编号 的 位 数 
是 固定 的 ， 因 此 前 几 位 可 能 需 

补 零 。 例 如 3 位 的 编号 可 能 会 出 





现 008、012。 如 果 是 数值 型 ， 那 





么 前 面 的 0 











会 被 忽略 掉 ， 从 而 变 


成 8、12。 这 样 会 影响 排序 。 


第 二 个 是 
二 个 是 ， 





一 旦 表 中 插入 了 数 





据 ， 那 么 





想 改 列 的 类 型 就 比较 














麻烦 ， 有 时 
据 都 先 删 掉 








甚至 需要 把 所 有 的 数 
， 这 样 看 来 还 不 如 从 


一 开始 就 设计 好 。 


ED 











相反 ， 如 果 








必须 使 用 名 字 列 作为 











连接 列 来 使 


是 不 是 设计 











， 那 么 请 思考 一 下 
有 问题 。 本 书 中 有 些 




















例子 直接 使 


但 那 只 是 为 
而 已 。 


名 字 作 为 连接 列 ， 
了 读者 理解 起 来 方便 
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的 属性 ， 我 们 也 可 以 从 广义 上 把 它 看 成 一 种 编号 。 标 志 这 类 编号 通常 只 用 来 
表示 两 个 值 。 像 这 类 编号 ， 一 般 都 用 于 表 中 重要 的 列 ， 很 多 时 候 会 作为 搜 





索 和 连接 的 列 来 使 用 。 












































因此 ， 我 们 当然 要 把 它 作 为 消除 NULL 的 首要 目标 。 

















解决 方法 很 简单 ， 分 配 异常 编号 就 行 了 。 例 如 ISO 的 性 别 编号 中 ， 除 














了 了 % 二 























性 ”“2: 女性 ” 还 定义 了 “0: 未 知 ”“9: 不 适用 ”这 两 个 用 于 异 








常情 况 的 编号 。 编 号 9 可 用 于 法 人 的 情况 。 这 真是 一 种 很 棒 的 解决 方案 ， 





无 意 间 刚 好 与 








由 Codd 区 分 














使 用 了 。 例 如 当 必 须 往 数 





示 未 知 的 编号 “XXXxXxX” 就 可 以 了 。 需 要 说 明 的 是 ， 请 尽量 避免 
为 当 编 号 个 数 很 多 的 时 候 ， 使 
现 用 来 表示 异常 的 编号 和 真实 的 顾客 编号 重复 的 情况 。 





“99999” 这 样 
字 的 话 ， 














a 全 已 
可 能 会 

















的 编号 

















因此 ， 编 号 列 


应 该 使 








作为 异常 编号 。 医 








的 两 类 NULL“ 未 知 ” 和 “不 适用 ” 相 吻 合 了 ®。 
并 不 是 所 有 的 情况 都 必须 预 留 这 两 个 编号 ， 很 多 时 候 ， 有 一 个 就 足够 
忆 库 中 插入 编号 未 知 的 顾客 信息 时 ， 定 义 一 个 表 























使 用 






































j 字 符 串 类 型 。 








数值 型 的 表 ， 这 令 笔者 感到 很 难过 @。 








笔者 偶尔 会 看 到 一 些 将 编号 列 定义 为 








大 家 使 | 




















字 。 在 使 用 名 
未 知 的 值 就 可 








字 的 时 候 ， 处 至 


J 以 了 。 不 论 是 “未 知 ” 还 是 “UNKNOWN”， 





























队 内 部 达成 一 致 的 适当 的 名 字 就 行 。 





般 来 说 ， 与 编号 相 比 ， 名 字 被 有 
为 元 余 列 使 用 @。 我 们 不 月 





NULL 从 名 字 列 








消失 。 





j 的 数据 库 表 中 一 定 存储 了 数量 不 亚 于 编号 的 各 种 各 样 的 名 
方法 和 编号 是 一 样 的 。 也 就 是 说 ， 赋 了 予 表示 








只 要 是 在 开发 团 




















日 于 聚合 的 频 度 很 低 ， 大 多 时 候 只 作 














日 刻意 地 消除 3 























其 中 的 NULL， 但 是 最 好 还 是 让 





对 于 数值 型 的 列 ， 笔 者 认为 最 好 的 方法 是 一 开始 就 将 NULL 转换 为 0 





再 存储 到 数据 库 ! 


























。 如 果 允 许 NULL， 那 么 就 必须 在 统计 数据 时 使 用 
NULLIF 函数 或 者 TS NOT NULL 谓词 来 排除 NoLL， 笔 者 不 推荐 这 样 来 做 。 
从 笔者 的 经 验 来 看 ， 将 NULL 转换 成 0 从 来 没有 带 来 过 任何 问题 ， 
除 NULL 带 来 的 好 处 有 很 多 。 




















而 且 消 


互 
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严格 来 讲 ， 这 种 做 法 有 点 儿 粗 景 ， 这 一 点 不 可 否认 。 就 像 Joe Celko 
说 的 那样 ,“ 没 有 油箱 的 车 ”和 “ 空 油箱 ” i 因此 更 加 可 行 的 
商 自 《 指 第 » 

摘自 《 SQL 权威 指南 ( 第 4 版 ) 方案 是 下 和 这 样 的 方案 。 


















































1. 转换 为 0。 
2. 如 果 一 定 要 区 分 0 和 NULL， 那 么 允许 使 用 NULL。 


如 果 能 转换 为 0， 希望 大 家 还 是 尽量 把 NULL 转换 为 0。 


畏 日 期 : 用 最 大 值 或 最 小 值 代 替 
对 于 日 期 ，NULL 的 含义 存在 多 种 可 能 性 ， 需 要 根据 具体 情况 决定 是 
使 用 默认 值 还 是 使 用 NULL。 
当 需 要 表示 开始 日 期 和 结束 日 期 这 样 的 “期 限 ” 的 时 候 ， 我 们 可 以 使 
] 0000-01-01 或 者 9999-12-31 这 样 可 能 存在 的 最 大 值 或 最 小 值 来 处 理 。 例 
如 表示 员工 的 入 职 日 期 或 者 信用 卡 的 有 效 期 的 时 候 ， 就 可 以 这 样 处 理 。 这 
种 方法 一 直 都 被 广泛 使 用 着 。 
相反 ， 当 默认 值 原 本 就 不 清楚 的 时 候 ， 例 如 历史 事件 发 生 的 日 期 ， 或 
者 某 人 的 生日 等 ， 也 就 是 当 NULL 的 含义 是 “未 知 ” 的 时 候 ， 我 们 不 能 像 
前 面 那样 设置 一 个 有 意义 的 默认 值 。 这 时 可 以 允许 使 用 NULL。 
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至 此 , 我 们 分 4 种 数据 类 型 介绍 了 消除 NULL 的 具体 方法 , 这 里 总 结 如 下 。 























(1) 首先 分 析 能 不 能 设置 默认 值 。 

(2) 仅 在 无 论 如 何 都 无 法 设置 默认 值 时 允许 使 用 NULL。 

笔者 认为 ,如果 遵守 这 两 条 原则 , 那 就 足以 避免 NULL 带 来 的 各 种 问题 ， 
使 系统 开发 能 够 更 加 顺利 地 进行 。 此 外 ， 大 家 可 能 会 遇 到 “这 种 做 法 行 不 
通 ” 或 者 “有 更 好 的 方法 ”的 情况 ， 这 时 请 务必 向 分 委 会 会 长 ， 也 就 是 笔 
者 汇报 一 下 。 
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0 so tnaa 


> 严格 的 等 级 社会 

在 SQL 中 , 使 用 GROUP BY 聚合 之 后 ， 我 们 就 不 能 引用 原 表 中 除 聚 合 键 之 外 的 列 。 对 于 不 习惯 SQL 
的 程序 员 来 说 ， 这 个 规则 很 让 人 讨厌 ， 甚 至 被 认为 是 多 余 的 。 但 是 ， 其 实 这 只 是 SQL 中 的 一 种 逻辑 ， 是 
为 了 严格 区 分 层级 。 本 节 就 从 这 个 乍 一 看 不 可 思议 的 现象 讲 起 ， 逐 步 带 大 家 接近 SQL 的 本 质 。 





鳃 谓词 运 辑 中 的 层级 、 集 合 论 中 的 层级 

1-8 节 介 绍 过 ，SQL 引入 了 谓词 逻辑 的 概念 “ 阶 ”(order)， 大 家 还 记 
得 吗 ? 这 个 概念 的 作用 是 区 分 层级 ,可 以 用 来 区 分 集合 论 中 的 元 素 和 和 集合， 
以 及 谓词 逻辑 中 的 参数 和 谓词 ， 是 一 个 非常 重要 的 概念 。 

前 面 讲 过 ， 在 SQL 中 ， 使 用 EXIsTs 谓词 时 如 果 能 意识 到 阶 ， 那 么 
EXISTS 谓词 就 容易 理解 了 。 此 外 ， 对 于 SQL 中 我 们 非常 熟悉 的 运算 一 一 
GROUP BY 聚合 一 一 来 说 ， 层 级 也 有 着 非常 重要 的 意义 。 

对 于 EXISTS 来 说 ， 层 级 的 差别 与 EXISTS 谓词 及 其 参数 有 关 ， 因 此 
属于 谓词 逻辑 中 的 阶 。 而 GROUP BY 中 的 阶 与 元 素 和 集合 的 区 别 有 关 ， 医 
此 属于 集合 论 中 的 阶 。 即 使 像 SGRoUP BY 这 样 被 广泛 使 用 的 运算 符 ， 其 实 
也 有 很 多 值得 深入 思考 的 地 方 。 本 节 将 一 一 解 开 这 些 秘密 。 































































































接 下 来 我 们 马上 结合 具体 的 例题 来 思考 一 下 。 首 先 ， 准 备 下 面 这 样 一 
张 曾 在 2-5 节 中 使 用 过 的 表 。 
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品 | 局 | 局 | 局 | 加 | 四 | 四 | 王 | 卫 





























这 是 一 张 管理 A~D 这 4 个 小 组 的 成 员 信息 的 表 。 首 先 ， 我 们 还 是 以 
组 为 单位 进行 聚合 查询 。 






































-- 以 组 为 单位 进行 聚合 查询 

SELECT team, AVG (age) 
FROM Teams 

GROUEL EY Eeanm 


team AVG (age) 


A 2 
B SS 
@ S00 
D 3 





这 条 查询 语句 没有 任何 问题 ， 它 求 的 是 每 个 组 的 平均 年 龄 。 那 么 如 果 
我 们 把 它 改 成 下 面 这 样 ， 结 果 会 怎么 样 呢 ? 






































-- 以 组 为 单位 进行 聚合 查询 ? 

SELECT team, AVG(age), age 
FROM Teams 

GROUP BY team; 





























这 条 查询 语句 的 执行 结果 会 出 错 。 原 因 是 不 能 选择 SELECT 子 句 中 新 
加 上 的 “age” 列 。MySQL 数据 库 支持 这 样 的 查询 语句 ， 但 是 这 样 的 查询 
语句 违反 了 标准 SQL 的 规定 ， 因 此 不 具有 可 移植 性 
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标准 SQL 规定 ， 在 对 表 进行 聚合 查询 的 时 候 ， 


写 下 面 3 种 内 容 。 
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的 





在 SELECT 子 句 中 





1. 通过 GROUP BY 子 句 指定 的 聚合 键 
2. 聚合 函数 ( suUM、AVG 等 ) 


3. 常量 


SQL 的 初学 者 大 多 会 忽略 这 条 约束 ， 从 而 犯 下 在 聚合 查询 时 往 
SELECT 子 句 中 加 入 多 余 列 的 错误 。 他 们 会 在 不 断 出 错 的 




















过 程 中 慢 慢 地 习 











惯 ， 并 在 不 经 意 间 学 会 正确 的 写法 ， 但 是 很 少 有 人 能 正确 地 理解 为 什么 会 








有 这 样 的 约束 。 当 大 家 被 新 入 
的 很 多 列 都 写 在 SELECT 子 名 























职 的 下 属 各 




















其 实 ， 这 


“age” 列 存储 了 每 位 成 员 


?” 时 ， 有 没有 觉得 








里 隐藏 了 








个 与 本 节 陪 








序 员 们 问 道 “为 什么 不 能 把 表 中 





E 题 紧密 相连 的 问题 。 





无 从 解释 呢 ? 
表 Teams 中 的 

















个 人 的 属 


| 
Ly 























性 ， 
小 组 的 属性 


而 不 是 





人 tb 有 目 
只 用 十 


























询问 每 个 人 的 年 龄 是 可 以 的 ， 但 是 询问 
没有 意义 了 。 对 于 小 组 来 说 ， 只 有 “平均 年 龄 是 多 少 ?” 或 者 “最 大 身 











小 组 的 


的 年 龄 信息 。 但 是 需要 注意 的 是 ， 这 里 的 年 龄 只 
小 组 的 属性 。 所 谓 小 组 ， 指 的 是 由 多 个 人 组 成 的 
平均 或 者 总 和 等 统计 性 质 的 属性 。 











属性 





























多 个 人 组 成 的 小 组 的 年 龄 就 




















是 多 少 ?” 这 相 


的 问 法 才 是 有 意义 的 。 强 行将 适用 于 个 体 的 属性 











体 之 上 ， 纯 粹 是 一 种 分 类 错误 。 误 


是 将 一 个 个 元 素 蕊 


式 名 称 叫 作 “ 


MySQL 会 忽 
可 能 对 用 户 来 说 这 样 会 比较 舒服， 但 实际 上 它 





知 


民 性 








it 像 





识 














[CC » 











略 掉 层 级 的 


又 别 ， 





























套用 于 团 
2-5 节 提 到 过 的 ，GRoUP BY 的 作用 
































| 分 成 若干 个 子 集 。 这 样 看 的 话 ， 关 系 模型 中 “ 列 ” 的 正 
其 实 也 是 有 道理 的 。 





此 这 样 的 语句 执行 起 来 也 不 会 出 
违背 了 SQL 的 基本 原理 。 























地 月 
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使 用 GROUP BY 聚合 之 后 ，SQL 的 操作 对 象 便 由 0 阶 的 “ 行 ” 变 为 了 1 阶 
的 “ 行 的 集合 ” 此 时 ， 行 的 属性 便 不 能 使 用 了 。SQL 的 世界 其 实 是 层级 
分 明 的 等 级 社会 。 将 低 阶 概念 的 属性 用 在 高 阶 概念 上 会 导致 秩序 的 混乱 ， 
必须 遭 到 惩罚 。 

因此 ， 我 们 很 容易 就 会 明白 ， 下 面 这 条 语句 的 错误 也 是 相同 的 原因 造 
成 的 。 





向 小 组 询问 姓名 是 不 会 得 到 回答 的 。 如 果 非 要 在 结果 中 包含 “member” 
列 的 值 ， 那 么 只 能 像 下 面 这 样 使 用 聚合 函数 。 





MAX (member) 会 计算 出 小 组 成 员 中 以 字典 序 排序 后 最 后 一 个 人 的 姓 
名 ， 因 此 这 无 疑 是 小 组 的 属性 。 

如 果 稍 微 扩展 一 下 这 条 查询 语句 ， 我 们 还 可 以 求 出 “小 组 中 年 龄 最 大 
的 成 员 ” SQL 语句 如 下 所 示 。 
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这 条 语句 稍微 有 些 意 外 , 而且 很 有 趣 。 member 是 聚合 之 前 的 表 的 属性 ， 
一 般 来 说 ， 不 可 能 出 现在 聚合 后 的 结果 中 《因为 层级 不 同 )。 但 是 像 这 样 
使 用 标量 子 查 询 的 话 ， 那 就 可 以 实现 。 

这 条 语句 的 关键 点 有 两 个 。 第 一 个 是 ， 子 查询 中 的 WHERE 子 句 里 使 用 
了 MAX(T1.age) 这 样 的 聚合 函数 作为 条 件 。 我 们 在 初学 SQL 时 ， 会 学 到 
不 可 以 在 WHERE 子 句 中 使 用 聚合 函数 , 但 是 在 本 题 中 却 是 可 以 的 。 原 因 是， 
这 里 对 外 层 的 表 T1 也 进行 了 聚合 ， 这 样 一 来 我 们 就 可 以 在 SELECT 子 句 
中 通过 聚合 函数 来 引用 “age” 列 了 (不 能 反 过 来 在 子 查 询 中 直接 引用 “age” 
列 )。SQL 中 的 层级 差别 就 是 如 此 的 严格 ， 大 家 是 否 体会 到 了 呢 ? 

另 一 个 是 ， 当 一 个 小 组 中 年 龄 最 大 的 成 员 有 多 人 时 ， 必 须 选 出 其 中 一 
个 人 作为 代表 。 这 个 是 通过 子 查询 中 SELECT 子 句 里 的 MAX (member) 来 实 
现 的 。 例 如 ，D 小 组 中 野 野 宫 和 鬼 过 两 人 的 年 龄 都 是 最 大 的 ， 但 是 结果 中 
只 出 现 了 野 野 宫 一 人 。 如 果 不 使 用 MAX 函数 , 那么 子 查 询 会 返回 多 条 数据 ， 
这 样 就 会 出 现 执行 错误 。 
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经 过 前 面 的 讨论 ， 相 信 大 家 已 经 理解 了 在 SQL 中 ,集合 中 的 元 素 ( 称 
为 元 ) 和 集合 是 有 区 别 的 。 不 过 ， 这 里 还 有 一 点 需要 大 家 特别 注意 。 

请 把 注意 力 放 在 C 组 上 。 这 个 小 组 虽然 称 为 小 组 ， 但 是 其 实 只 有 桥 
位 成 员 。 因 此 小 组 的 平均 年 龄 就 刚好 与 桥 田 的 年 龄 相同 。 不 只 是 年 龄 ， 
其 他 的 属性 也 一 样 。 像 这 样 只 有 一 个 元 素 的 集合 ， 在 集合 论 中 叫 作 单元 素 
集合 〈singleton)。 一 般 来 说 ， 单 元 素 集合 的 属性 和 其 唯一 元 素 的 属性 是 
样 的 。 这 种 只 包含 一 个 元 素 的 集合 让 人 觉得 似乎 没有 必要 特意 地 当成 集合 
来 看 待 。 其 实在 数学 史上 ， 围 绕 着 是 否 承 认 单 元 素 集合 也 曾经 有 过 一 些 争 







































































































































































































































































第 2 章 关系 数据 库 的 世界 





@ 270 








对 于 单元 素 集合 来 说 ， 元 素 的 属性 和 集合 的 属性 一 样 


/IE 












































eC 


元 素 : a 集合 ， {a} 























这 里 先 给 出 结论 吧 , 现在 的 集合 论 认为 单元 素 集 合 是 一 种 正常 的 集合 。 
单元 素 集 合 和 空 集 一 样 ， 主 要 是 为 了 保持 理论 的 完整 性 而 定义 的 。 因 此 对 
于 以 集合 论 为 基础 的 SQL 来 说 ,当然 也 需要 严格 地 区 分 元 素 和 单元 素 集合 。 
因此 ， 元 素 a 和 集合 {a} 之 间 存 在 着 非常 醒目 的 层级 差别 。 


































































































a < {a} 


这 两 个 层级 的 区 别 分 别 对 应 着 SQL 中 的 WHERE 子 句 和 HAVING 子 句 
的 区 别 。wHERE 子 句 用 于 处 理 “ 行 ”这 种 0 阶 的 对 象 ， 而 HAVING 子 句 用 
来 处 理 “ 和 集合 ”这 种 1 阶 的 对 象 。 

读 到 这 里 ， 对 于 为 什么 聚合 查询 的 sELECT 子 句 中 不 能 直接 引用 原 表 
中 的 列 ， 大 家 是 否 彻 底 理解 了 呢 ? 如 果 明 天 新 入 职 的 程序 员 问 大 家 这 样 基 
础 的 问题 ， 大 家 能 像 老手 一 般 作出 合理 的 解答 吗 ? 
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3 | ) 3 旺角 和 


这 里 针对 第 1 章 中 各 节 的 练习 题 进行 解答 。 如 果 能 把 这 些 练习 题 全 都 做 出 来 ， 那 么 大 家 就 达到 中 级 
水 平 了 。 





1-1 CASE 表达 式 


练习 题 1-1-1 多 列 数 据 的 最 大 值 


求 两 列 中 的 最 大 值 ， 应 该 很 简单 吧 ? 只 需要 使 用 “y 比 x 大 时 返回 y， 
否则 返回 x” 这 样 的 条 件 分 支 就 可 以 表达 。 


| 








-- 求 x 和 Yy 二 者 中 较 大 的 值 
SELECT Key， 
CASE WHEN x < y THEN y 
ELSE x END AS greatest 
BROM Createstsy 











扩展 成 3 列 时 ， 思 路 是 一 样 的 ， 需 要 将 上 面 的 条 件 分 支 骨 套 进 又 一 层 
条 件 分 支 里 。 没 错 ，CRAsE 表达 式 是 可 以 艇 套 的 一 一 这 一 点 在 这 里 很 关键 。 

通过 上 面 的 语句 ， 我 们 求 出 了 x 和 ?了 中 的 较 大 值 。 接 下 来 我 们 需要 拿 
这 个 较 大 值 和 z 进行 比较 。 






























































-- 求 x 和 y 和 z 三 者 中 的 最 大 值 
SELECT key, 
CASE WHEN CASE WHEN x < y THEN y ELSE x END < Zz 
THEN 2z 
ELSE CASE WHEN x < y THEN y ELSE x END 
END AS greatest 
EROM Createstsy 








这 里 ， 前 面 的 CASE 表达 式 CASE WHEN x < y THEN y ELSE x END 
被 嵌 套 进 了 又 一 层 cASE 表达 式 里 。 之 所 以 能 这 样 写 ， 是 因为 CASE 表达 
式 在 执行 时 会 被 解析 成 标量 值 。 





























图 灵 社 区 会 员 非洲 铜 (africancu@126.com) 专 享 尊重 版 权 


注目 
《SQL HACKS : 100 个 业界 最 尖端 
的 技巧 和 工具 》( 清华 大 学 出 版 
社 ，2008 年 ) 第 5 章 “30 计算 
两 个 字段 的 最 大 值 ”介绍 过 这 种 
方法 。UNION 比 UNION ALL 性 能 
好 一 些 s 








当 增加 到 4 列 、5 列 时 ， 当 然 也 可 以 用 一 样 的 方法 来 扩展 ， 但 是 这 样 
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写 出 来 的 代码 会 因为 嵌 套 太 深 而 变 得 不 易 阅 读 。 这 时 可 以 考虑 像 下 面 这 样 ， 
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转换 成 行 格式 后 使 用 MAX 函数 














E 进 行 行列 转换 ， 然 后 使 用 Max 函数 来 求解 9。 


SELECT key, MAX(col) AS greatest 
FROM (SELECT key, x AS col FROM Greatests 


UNION ALL 


SELECT key, y AS col FROM Greatests 


UNION ALL 





SELECT key, 2z AS col FROM Greatests)TMP 


GROUBE BY Ee 


key Smeaiaes 忆 












































如 果 是 Oracle 或 者 MySQL 数据 库 ， 那 么 我 们 可 以 用 下 面 的 简便 方法 
来 求解 。 真 心 希望 标准 SQL 里 也 能 加 进 GREATEST 和 LEAST 的 功能 。 























SELECT key, GREATEST (GREATEST (x,y), 2z) AS greatest 


EROMEGr=aEeses: 


练习 题 1-1-2 转换 行列 一 一 在 表 头 里 加 入 汇总 和 再 揭 
使 用 casE 表达 式 对 表格 进行 水 平展 开 时 ， 在 某 个 列 的 统计 中 使 用 过 
的 行 的 数据 也 可 以 用 于 其 他 列 的 统计 。 从 这 一 点 上 来 说 ， 各 个 列 之 间 是 相 







































































互 独立 的 。 因 此 ， 我 们 分 别 按照 “全 国 ”“ 四 国 ” 这 样 的 条 件 进行 汇总 就 


可 以 了 。 


SELECT sex, 


population) AS total, 
= ! 德 岛 ' THEN population ELSE 0 END) AS col 1, 


SUM( 

SUM (CASE WHEN pref name 
SUM (CASE WHEN pref name 
SUM (CASE WHEN pref name 
SUM (CASE WHEN pref name 
SUM (CASE WHEN pref name 


FROM PopTb12 
GROUP BY sex; 


' 香 川 ' THEN population ELSE 0 END) RS col 2, 
' 爱 媛 ' THEN population ELSE 0 END) AS col 3, 
! 高 知 ' THEN population ELSE 0 END) RS col 4, 





IN (〈 德 岛 ，' 乔 心爱 媛 " ,高知 ) 
THEN population ELSE 0 END) AS zaijie 
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“全 国 ” 指 的 是 不 分 都 道 府 县 的 所 有 行 的 和 ， 因 此 无 需 指 定 条 件 直接 
SUM 就 可 以 。“ 四 国 〈 再 揭 )” 指 的 是 4 个 县 的 和 ， 因 此 需要 使 用 IN 谓词 
指定 对 象 的 范围 。 

这 里 进一步 思考 一 下 ， 如 果 不 在 表 头 〈 列 中 ) 展示 合计 和 再 揭 ， 而 在 
表 侧 栏 〈 行 中 ) 展示 ， 应 该 怎么 做 呢 ? 实际 上 ， 将 上 面 的 查询 结果 的 表 头 
和 表 侧 栏 调换 一 下 ， 就 是 我 们 想 要 的 形式 。 但 是 ， 这 个 问题 解决 起 来 要 困 
















































































































































































难得 多 。 

对 于 SQL 语言 来 说 ， 处 理 复杂 的 表 头 不 算 太 困难 ， 但 是 处 理 复杂 的 
表 侧 栏 就 非常 困难 了 。 

练习 题 1-1-3 用 ORDER BY 生成 “排序 ” 列 




















解 题 思路 是 使 用 CAsE 表达 式 生成 “排序 ” 列 。 解 法 如 下 所 示 。 


SELECT Key 
FROM Greatests 

ORDER BY CASE key 
WHEN 'B' THEN 1 
WHEN 'A' THEN 2 
WHEN 'D' THEN 3 
WHEN 'C' THEN 4 
ELSE NULL END; 




















如 果 想 在 结果 中 展示 “排序 ” 列 ， 需 要 把 “排序 ” 列 放 到 SELECT 子 
句 中 。 











SELECT key, 
CASE key 
WHEN 'B' THEN 1 
WHEN 'A' THEN 2 
WHEN 'D' THEN 3 
WHEN 'C' THEN 4 
ELSE NULL END AS sort col 
FROM Greatests 


ORDERSBY Soneye on 


key Sortdeol 
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这 种 写法 和 1-1 节 的 “将 已 有 编号 方式 转换 为 新 的 方式 并 统计 ”中 介 
绍 过 的 ,在 GROUP BY 子 句 中 引用 声明 于 SELECT 子 句 的 列 的 写法 是 相似 的 ， 


























只 不 过 这 种 写法 更 符合 标准 SQL 的 要 求 。 因 为 ORDER BY 子 句 在 SELECT 


子 句 之 后 执行 ， 所 以 在 sELECT 子 句 中 生成 的 列 ( 本 例 中 的 sort_col)， 
ORDER BY 子 句 中 可 以 引用 。 





设计 非常 糟糕 。 如 果 从 一 开始 就 在 表 中 加 入 了 用 来 排序 的 列 ， 就 不 用 这 样 
大 费 周折 了 。 其 次 ，SQL 语句 的 本 职 了 








格式 化 其 实 是 宿主 语言 的 工作 。 





不 过 ， 


这 里 作 了 人 简 上 


有 有 














其 实 ， 这 种 查询 语句 笔者 不 是 很 推荐 ， 因 为 它 有 几 个 问题 。 首 先是 表 
























































的 介绍 。 





1-2 自 连 接 的 用 法 


练习 题 1-2-1 可 重组 合 


























果 中 没有 出 现 同 


在 求 商品 组 合 的 时 候 ， 本 
商品 的 组 合 。 因 此 在 本 题 中 ， 我 们 只 需要 加 上 等 号 就 可 




















以 了 。 


角 实 有 些 情况 下 我 们 不 得 不 使 用 这 样 的 查询 语句 ， 攻 











此 


AS 





[ 作 是 查询 数据 ， 而 对 查询 结果 进行 

















所 了 











SEECHNIETRTameEASswnameEI PRP2enameASEnames2 
FROM Products P1，Prodqucts P2 
WHERE Pl.name >= P2.name; 


者 在 








至 此 ， 我 们 集 齐 了 可 重 排列 、 排 列 、 可 重组 合 、 组 合 这 4 种 类 型 的 


SQL 语句 。 请 根 所 











中 具体 的 需求 选择 合适 的 类 型 来 使 用 。 
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练习 题 1-2-2 分 地 区 排序 
无 论 是 使 用 窗口 函数 还 是 自 连接 ， 都 需要 把 地 区 作为 条 件 。 这 里 首先 
看 一 下 使 用 窗口 函数 的 解法 。 




























































































SELECT district, name, price, 
RANK() OVER (PARTITION BY district 
ORDER BY price DESC) AS rank 1 
FROMEDISEETICEEFEOJUCLESR 





























证 PARTITION BY 具有 将 表 分 割 成 若干 个 小 的 子 集 的 作用 @。 因 为 本 题 
关 于 PARTITION BY 的 数学 基 Et ee 
础 ， 请 参考 2-5 节 。 以 地 区 为 单位 进行 分 制 ， 所 以 指定 “district” 列 。 














如 果 使 用 标量 子 查 询 ， 可 以 像 下 面 这 样 解答 。 














SELECT Pl.district, Pl.name, 
Bam Oreen 
(SELECT COUNT (P2.price) 
FROM DistrictProducts P2 
WHERE P1.district = Pp2.district -- 在 同一 个 地 区 内 进行 比较 
AND Doeneee > Pl lee TA sam 
EROMIDisterietproduets pn 












































这 种 解法 只 是 在 连接 条 件 里 加 入 了 “价格 的 比较 在 同一 地 区 内 进行 ” 
的 条 件 ， 与 窗口 函数 中 PARTITION BY 子 句 的 作用 是 相同 的 。 当 然 ， 我 们 
也 可 以 改 成 下 面 这 种 自 连接 的 写法 。 


让 
um 




















SELECT Pidliotenet, plenames 
MAX (Pl1.price) AS price, 
COUNT(P2.name) +1 AS rank 1 
FROM DistrictPproducts P1 LEFT OUTER JOIN DistrictProducts P2 
@Nepl enet onde 
AND， PI PICe < Do DECe 
GROUP BY Pl.district, Pl.name; 


练习 题 1-2-3 更 新 位 次 
这 个 问题 使 用 自 连接 就 能 轻松 地 解决 。 我 们 可 以 像 下 面 这 样 ， 在 
UPDATE 语句 的 SET 子 句 中 加 入 计算 位 次 的 逻辑 。 


























UPDATE DistrictPproducts2 Pl 
SETPNranking = (SEEECTNCOUNT(P2 orice)n ed 
FROM DistrictPproducts2 Pp2 
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WHERE Plena 
AND P2.price > P1.price); 








对 于 不 支持 在 子 查 询 中 引用 更 新 目标 表 的 数据 库 ， 执 行 这 条 UPDATE 
语句 时 会 出 错 。 但 是 大 多 数 数据 库 都 不 会 有 问题 。 
也 许 有 些 人 会 考虑 使 用 窗口 函数 来 解答 ， 例 如 像 下 面 这 样 。 



































Tt 




















UPDATE DistrictProducts2 
SET ranking = RANK() OVER (PARTITION BY district 
ORDER BY price DESC) ; 











遗憾 的 是 ，Oracle 和 SQL Server 不 支持 在 SET 子 句 中 使 用 窗口 函数 ， 
所 以 它们 无 法 正确 执行 这 段 代 码 。 而 DB2 执行 起 来 没有 问题 。 

为 了 使 Oracle 等 也 能 实现 同样 的 功能 ， 我 们 需要 先 用 一 阶 子 查 询 包 
装 一 下 。 





















































UPDATE DistrictProducts2 
SET ranking = 
(SELECT Pl1.ranking 
FROM (SELECT district , name ， 
RANK() OVER (PARTITION BY district 
ORDER BY price DESC) AS ranking 
FROM DistrictProducts2) P1 
WHERE Plast let "Diet bred Uee deere 
AND Pl.name = Districtproducts2.name); 


可 以 看 到 ， 与 DB2 相 比 ， 在 Oracle 等 中 实现 稍微 麻烦 一 些 。 





人 2E1-4 HAVING 子 句 的 力量 


练习 题 1-4-1 修改 编号 缺失 的 检查 逻辑 ， 使 结果 总 是 返回 一 行 数据 
比较 笨 的 做 法 是 ， 将 两 个 条 件 直接 写 在 HAVING 子 句 中 ， 然 后 上 
UNION 起 来 。 























上 由 




















SELECT ' 存 在 缺失 的 编号 ' AS gap 
FROM SeqTbl 

HAVING COUNT(*) <> MAX (sed) 

UNION ALL 

SELECT ' 不 存在 缺失 的 编号 ' RS gap 
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EROM SeqTbl 
HAVING COUNT (*) = MAX (seq); 





这 种 做 法 的 问题 是 会 发 生 两 次 表 扫 描 和 排序 ， 性 能 不 太 好 。 

大 家 还 记得 1-1 节 的 “在 cASE 表达 式 中 使 用 聚合 函数 ”部 分 讲 过 的 
内 容 吗 ? 把 使 用 HAVING 子 句 进行 条 件 分 支 的 查询 语句 ， 改 写成 使 用 
SELECT 子 句 进行 条 件 分 支 会 更 简洁 。 因 此 ， 更 好 的 解法 是 下 面 这 样 的 。 








































































































SELECT CASE WHEN COUNT(*) <> MAX(sed) 

THEN ' 存在 缺失 的 编号 ' 

ELSE ' 不 存在 缺失 的 编号 ' END RS gap 
EROM SeqTbl; 





























为 为 “存在 缺失 的 编号 ”和 “不 存在 缺失 的 编号 ”这 两 个 条 件 是 互 斥 
的 ， 所 以 指定 其 中 一 个 条 件 后 ， 另 一 个 条 件 用 ELSE 就 可 以 表达 。 使 用 这 
种 做 法 时 只 进行 一 次 表 扫 描 和 排序 即 可 。 









































练习 题 1-4-2 练习 “特征 函数 ” 

CASE 表达 式 中 的 条 件 应 该 这 样 写 : 把 在 9 月 份 提交 完成 的 学 生 记 为 1， 
否则 记 为 0。 如果 这 个 cAsE 表达 式 的 合计 值 与 集合 全 体 元 素 的 数目 一 致 ， 
就 说 明 该 学 院 的 所 有 学 生 都 在 9 月 份 提交 完成 了 。 

“9 月 份 ” 这 个 条 件 有 多 种 写法 ， 比 较 简 单 的 是 使 用 BETWEEN 谓词 。 
解答 如 下 所 示 。 



















































































-- 查找 所 有 学 生 都 在 9 月 份 提交 完成 的 学 院 (1) : 使 用 BETWEEN 谓词 
SELECT dpt 
FROM Students 
GROUP BY dpt 
HAVING COUNT(*) = SUM(CASE WHEN sbmt date BETWEEN '2005-09-01' AND '2005-09-30' 
THEN 1 ELSE 0 END); 








国 执 行 结果 


经 济 学 院 
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下 面 这 张 表 可 能 会 让 我 们 更 好 理解 一 些 。 这 张 表 在 原 表 的 基础 上 增加 
了 一 个 “特征 函数 标记 ” 列 。 从 表 中 可 以 看 到 ，4 个 学 院 中 ， 学 院 的 学 生 
人 数 和 “特征 函数 标记 ” 列 的 合计 值 相 一 致 的 只 有 经 济 学 院 。 









































Students 

院 ) sbmt_date (提交 日 期 ) ”特征 函数 标记 
2005-10-10 
2005-09-22 


二 
二 








1 


忧 | 意 | 意 | 屯 | 虫 








2005-09-10 
2005-09-22 























2005-09-25 


党 

















另 一 种 解法 是 ， 使 用 EXTRACT 函数 SQL 标准 函数 ， 返 回 数值 ) 将 
日 期 中 的 年 、 月 、 日 等 要 素 解析 出 来 分 别 用 于 匹配 ， 代 码 如 下 所 示 。 















































SELECT dpt 
FROM Students 
GROUP BY dpt 
HAVING COUNT(*) = SUM(CASE WHEN EXTRACT (YEAR FROM sbmt date) = 2005 
AND EXTRACT (MONTH FROM sbmt date) = 09 
THEN 1 ELSE 0 END); 














这 种 写法 的 好 处 是 ， 即 使 查询 条 件 的 月 份 变化 了 ， 也 不 用 关心 月 末日 
期 是 30 日 还 是 31 日 (或 者 是 其 他 )， 相 比 前 一 个 写法 ， 这 种 写法 容易 应 
对 查询 条 件 的 变化 。 如 果 大 家 在 工作 中 经 常 需要 对 日 期 进行 操作 ， 不 妨 记 
住 这 个 函数 的 用 法 。 




















































































































练习 题 1-4-3 购物 篮 分 析 问 题 的 一 般 化 
所 求 的 商品 件数 可 以 通过 查询 表 Items 的 行 数 得 到 ， 然 后 用 求 得 的 商 



















































































品 件数 减 去 各 个 商店 的 商品 件数 就 可 以 了 。 但 是 需要 注意 一 点 ， 像 电视 和 
窗帘 这 样 不 属于 表 Items 的 商品 ， 不 管 商店 里 有 多 少 件 都 不 应 该 参与 件数 





























的 计算 。 为 了 排除 掉 这 些 “ 无 所 谓 的 商品 ”， 需 要 使 用 内 连接 。 
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SURGCTESTESSROE 
COUNE(ST Ena myaitemienty 
(SELEEECH EOUNT (Eem RoOMe Tr Eeme) ee COUNT (SI LemaAs duEfMene 
FROM ShopItems SI, Items I 
WHERE SI.item = I.item 
GROUB BY SI Snop, 


外 3 1-5 外 连接 的 用 法 


练习 题 1-5-1 先 连接 还 是 先 聚 合 


请 思考 一 下 ， 当 需要 减少 中 间 表 时 ， 应 该 去 掉 MASTER 还 是 DATA。 
为 了 生成 表 侧 栏 ， 必 须 生成 所 有 年 龄 和 性 别 的 组 合 ， 所 以 MASTER 似乎 
是 无 法 去 掉 的 。 

这 样 的 话 ， 就 必须 去 掉 DATA 视图 了 。 因 为 它 是 由 表 TblPop〈 通 过 
年 龄 层 、 性 别 ) 聚合 出 来 的 ， 所 以 原来 的 表 TblPop 和 MASTER 视图 实际 
上 是 一 对 多 的 关系 。 因 此 表 TblPop 和 MASTER 视图 连接 之 后 ， 结 果 中 的 
行 数 不 会 增加 。 修 改 后 的 代码 如 下 所 示 。 



















































































-- 去 掉 一 个 内 联 视图 后 的 修正 版 
SELECT MASTER.age class AS age class, 
MASTER.sex cd AS sex cd, 
SUM (CASE WHEN pref name IN (' 青 森 '，' 秋 田 ') 
THEN population ELSE NULL END) AS Pop tohoku, 
SUM (CASE WHEN pref_name IN (' 东 京 '，' 千 叶 ') 
THEN population ELSE NULL END) AS pop kanto 
PROM (SpELECT lage class, sex ed 
FROM TblAge CROSS JOIN TblSex) MASTER 
LEFT OUTER JOIN TblPop DATA 二 -| 关键 在 于 理解 DATA 其 
ON MASTER.age class = DATA.age class 实名 是 2bz2op 
AND MASTER.sex cd = DATA.sex cd 
GROUP BY MASTER.age class, MASTER.Ssex cd; 



























































关于 该 解法 可 行 的 原因 ， 正 文中 也 多 次 介绍 过 ， 连 接 运 算 其 实 相当 于 
“乘法 运算 ”。 在 一 对 一 、 一 对 多 的 列 上 进行 连接 操作 ， 效 果 与 将 一 个 数 乘 
以 1 是 一 样 的 。 















































丸 为 是 以 员工 为 单位 进行 聚合 ， 所 以 我 们 应 该 很 容易 就 能 想到 GROUP 
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By EMP.employee。 难 点 在 于 孩子 的 计数 。 如 果 直 接 用 couNr(*) ， 得 到 
的 结果 是 不 正确 的 。 





SELECT EMP.employee, COUNT(*) AS child cnt < | 不 能 使 用 COUNT(*) |! 
FROM Personnel EMP 
LEFT OUTER JOIN Children 
ON CHILDREN.child IN (EMP. chlo ， EMP.chil JE2 OVS ch ) 
GROUP BY EMP.employee; 











emploveee cncene 






































奇怪 的 是 ， 吉 田 并 不 是 孩子 ,但 是 也 被 统计 出 了 “1”。 这 是 因为 
注 @ COUNT(*) 在 计数 时 会 把 NULL 的 行 包 含 在 内 8。 因 此 在 这 里 必须 使 用 


关于 COUNT 函数 的 细节 ， 请 参考 
1-4 节 的 “查询 不 包含 NULL 的 集 COUNT( 列 名 ) 。 


合 ” 部 分 。 


















































SELECT EMP.employee, COUNT (CHILDREN .child) AS child cnt 
FROM Personnel EMP 
LEFT OUTER JOIN Children 
ON CHILDREN.child IN (EMP. eho ; EMP., (ejb Il 2 ,， EMP. ChielidRe) 
GROUP BY EMP.employee; 


练习 题 1-5-3 全 外 连接 和 MERGE 运算 符 
这 次 我 们 先 给 出 结论 ， 然 后 进行 分 析 。 





MERGE INTO Class AA 





USING (SELECT * 入 块 ， 指定 匹配 的 表 和 列 
FROM Class B')'B 
©@NM (A esio) 




















WY MCD EN 块 ， 合并 目标 表 中 存在 相应 记录 时 
UPDATE SET A.name = B.name *” UPDATE 








WHEN NOT MATCHED THEN 
INSERT (id, name) 
VALUES (B.id, B.name); 





C 抉 : 合并 目标 表 中 不 存在 相应 记录 时 


下 INSERT 





























MERGE 语句 主要 分 为 三 块 。 第 一 块 指定 合并 的 表 和 匹配 列 ， 即 代码 中 
的 A 块 。 oN (A.iqd = B.ig) 是 匹配 条 件 。 
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然后 对 每 条 记录 进行 匹配 , 并 根据 是 否 匹 配 到 进行 分 支 处 理 。 本 例 中 ， 
对 匹配 到 的 记录 执行 UPDATE (B 块 )， 对 没有 匹配 到 的 记录 执行 INSERT 
(C 块 )。 执 行 结果 后 会 得 到 “A + B” 这 样 存储 了 完整 信息 的 表 (id 为 2 
的 记录 会 被 覆盖 掉 ， 从 某 种 意义 上 来 说 也 算是 信息 丢失 ， 但 是 这 里 所 说 的 
“完整 ”强调 的 是 “没有 缺失 的 ia”)。 
在 无 法 使 用 MERGE 语句 的 环境 中 ， 我 们 可 以 使 用 UPDATE 和 INSERT 
分 两 次 处 理 ， 或 者 使 用 外 连接 后 将 结果 INSERT 到 另 一 张 表 中 。 

























































































1-6 用 关联 子 查询 比较 行 与 行 


练习 题 1-6-1 简化 多 行 数据 的 比较 
解 题 关键 是 使 用 sIGN 函数 。 先 算出 “本 年 营业 额 一 前 年 营业 额 ” 然 
后 针对 该 结果 写 条 件 分 支 。 



































-- 一 次 性 求 出 增长 、 减 退 、 维 持 现状 的 状态 (2) : 使 用 SIGN 函数 
SRCTESTEYea eS sales 
CASE SIGN(sale - 
(SELECT sale 
FROM Sales S2 
WHERE S2.year = Sl.year - 1) ) 




















WHEN 0 THEN ' 一 ' -- 持平 
WHEN 1 THEN '1' -- 增长 
WHEN -1 THEN ' 小 ! -- 减 少 


ELSE '-' END AS var 
EROMESalesesl 
ORDERI BY yea 


SIGN 函数 的 作用 是 判断 参数 的 正 负 。 参数 为 正 返 回 1， 为 负 返 回 -1， 
为 0 则 返回 0。 这 个 函数 虽然 不 是 SQL 标准 函数 ， 但 是 大 多 数 数据 库 都 文 
持 。 使 用 这 个 函数 以 后 ， 子 查询 的 执行 次 数 减少 了 ， 性 能 也 提高 了 ， 而 且 
代码 更 加 简洁 ， 因 而 可 读 性 也 更 好 。 






























































练习 题 1-6-2 使 用 OVERLAPS 查询 重 又 的 时 间 区 间 


只 需要 蔡 换 掉 BETWEEN 部 分 ， 代 码 如 下 页 所 示 。 
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SELECT reserver, start date, end date 
FROM Reservations R1 
WHERE EXISTS 
(SELECT * 
FROM Reservations R2 
WHERE R1.reserver <> R2.reserver -- 与 除 自己 以 外 的 客人 进行 比较 
AND (R1.start date，R1.end date) OVERLAPS (R2.start date, R2.end date) ) ; 





图 执行 结果 


eserVwerEsEcantgdaEea EneEdaee 


山本 2006-11-03 2006-11-04 
内 田 2006-11-03 2006-11-05 


























正文 中 曾 说 过 “关联 子 查 询 和 自 连接 在 很 多 时 候 都 是 等 价 的 ” 这 中 
同样 可 以 像 下 面 这 样 改写 。 














It 

















SEDRCOI RI Peerver Rlsteartedate Rendlidaee 
FROM Reservations R1, Reservations R2 
WHERE R1.reserver <> R2.reserver -- 与 除 自己 以 外 的 客人 进行 比较 
AND (RI Startldate plendidate) OVEREAPS (rostartidate  r2"endidate)l 


















































请 注意 一 下 执行 结果 。 使 用 BETWEEN 时 曾经 出 现在 结果 里 的 荒木 和 
据 两 人 ， 并 没有 出 现在 这 次 的 结果 里 。 这 是 因为 对 于 只 有 一 个 时 间 点 重症 
的 记录 ，OVERLAPS 不 认为 时 间 区 间 是 重 车 的 。 因 此 ， 对 于 仪 在 10 月 31 
日 重 又 的 荒木 和 所 ，oVERLAPS 认为 “不 重 甘 ”。 

现实 中 有 很 多 场景 都 很 适合 使 用 OVERLAPS 谓词 。 例 如 本 题 中 管理 旅 

馆 预 约 情 况 的 表 ， 上 一 位 旅客 退 房 的 同一 天 下 一 位 旅客 入 住 ， 是 没有 任何 
问题 的 。 我 们 只 要 根据 是 否 允 许 时 间 点 的 重复 来 区 分 使 用 BETWEEN 还 是 
注 @ OVERLAPS 就 可 以 了 @。 


如 果 想 了 解 更 多 关于 OVERLAPS 谓 
词 的 知识 ， 请 参考 《SQL 权威 指南 


























































































































hn 


















































Sas md 练习 题 1-6-3 SUM 函数 可 以 计算 出 累计 值 ， 那 么 MAX、MIN、 
AVG 可 以 计算 出 什么 ? 
国 使 用 MAX 时 
csedate prc amt onhand max 


2006 “10 26 12000 12000 
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2006 10=28 2500 12000 
2006=0=3L = 5 O00 12000 
2006 E03 34000 34000 
2006-11-04 =5000 34000 
2006 TH 06 T2100 34000 
人 2006 IN 恒 11000 34000 


























从 结果 中 可 以 看 到 ， 到 10 月 31 日 为 止 都 是 12 000， 之 后 的 记录 是 11 
月 3 日 的 ， 值 变 成 了 34 000。 出 现 这 种 结果 的 原因 是 ， 这 条 查询 语句 求 出 
的 是 每 天 的 最 大 值 ， 也 就 是 最 大 交易 金额 。 拿 历届 奥运 会 纪录 的 刷新 历史 
来 类 比 一 下 ， 可 能 会 让 我 们 好 理解 一 些 。 每 当 打 破旧 记录 时 ，onhangd_ 
max 的 值 都 会 被 刷新 为 新 纪录 。 

使 用 MIN 时 刚好 与 使 用 MAX 时 相反 ， 理 解 起 来 也 不 难 。 











































































































转 MII 
pusemgate prc amt onhand min 
2006 = 10 26 12000 12000 
2006 T1028 2500 2500 
OE 0 0 E000 = ao) 
2006 E08 34000 = a) 
2006E= 04 =S000 = S000 
2006 TL 06 7200 5000 
2006— EL i000 = SOO 





这 次 求 出 的 是 每 天 的 最 小 交易 金额 。 
最 后 我 们 看 一 下 使 用 AVG 时 的 情况 。 











国 侵 | A fs |] 计 
PEeEdate prc amt onhand avg 
2006 1026 12000 12000 
2006=10=28 2500 V250 
2006= Se ES5OU0OREE 6666 
ZU06 1 09 34000 Se 可 三 
2006-11-04 -5000 5700 
Ne ls 7200 S950 
20065 EE T0000 6671 42857 


























这 次 求 出 的 是 每 天 的 交易 金额 的 平均 值 。 不 知道 能 不 能 仿照 “累计 值 ” 
而 叫 它 “ 累 均值” 总 之 大 家 可 以 把 它 理解 为 “累计 平均 值 ”。 
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练习 题 1-7-1 改进 “只 使 用 UNION 的 比较 ” 

丸 为 该 查询 需要 判断 两 张 表 UNION 之 后 的 结果 与 原来 的 两 张 表 行 数 
是 否 相 等 ， 所 以 属于 针对 查询 结果 进行 条 件 分 支 的 问题 。 因 此 ， 我 们 需要 
在 SELECT 子 句 中 使 用 casE 表达 式 。 










































































SELECT CASE WHEN COUNT (*) = (SELECT COUNT(*) FROM tbl A ) 
AND COUNT (*) = (SELECT COUNT(*) FROM tbl B ) 
THEN ' 相 等 ' 
ELSE ' 不 相等 ' END AS result 
FROM ( SELECT * 
FROM tbl A 
UNION 
SELECT * 
FROM tbl B ) TMP; 








可 以 看 到 这 种 做 法 非常 简单 粗 景 ， 一 点 也 说 不 上 优雅 














o 





练习 题 1-7-2 精确 关系 除法 运算 
使 用 有 余数 的 除法 运算 时 ， 员 工 即 使 掌握 了 被 要 求 的 技术 之 外 的 其 
技术 也 是 没 问 题 的 。 而 这 次 我 们 查询 的 是 掌握 的 技术 和 所 要 求 的 技术 完全 
一 致 的 员工 ， 所 以 不 仅 要 求 EmpSkills 一 Skills 是 空 集 ， 同 时 也 要 求 
Skills 一 EmpSkills 是 空 集 。 














fs 














SELECT DISTINCT emp 
FROM EmpSkills ES1 
WHERE NOT EXISTS 
(SELECT skill 
FROM Skills 
EXCEPT 
SELECT skill 
FROM EmpSkills ES2 
WHERE ES1.emp = ES2.emp) 
AND NOT EXISTS 
(SELECT skill 
FROM EmpSkills ES3 
WHERE ES1.emp = ES3.emp 
EXCEPT 
SELECT skill 
EROME SI 
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这 条 查询 使 用 了 判断 集合 相等 的 公式 “(A cB) 且 (ADB)S (A 
=B)”, 











还 有 一 种 解法 ， 即 通过 员工 掌握 的 技术 数目 来 匹配 ， 代 码 如 下 所 示 。 





SELECT emp 
FROM EmpSkills ES1 
WHERE NOT EXISTS 
(SELECT skill 
FROM Skills 
EXCEPT 
Samay Sle 
FROM EmpSkills ES2 
WHERE ES1.emp = ES2.emp) 
GROUP BY emp 
HAVING COUNT(*) = (SELECT COUNT(*) FROM Skills); 


1-8 ” EXISTS 谓词 的 用 法 


练习 题 1-8-1 数组 表 一 一 行 结构 表 的 情况 


为 了 使 用 EXISTS 表达 “所 有 的 行 都 满足 val = 二 1” 这 样 的 全 称 量化 
条 件 ， 需 要 使 用 双重 否定 。 因 此 我 们 可 以 像 下 面 这 样 进行 条 件 转 换 。 






























































所 有 的 行 都 满足 val = 1 
= 不 存在 满足 val <> 1 的 行 

















将 转换 后 的 条 件 翻译 成 SQL 语句 的 话 如 下 所 示 。 





SELEECT DISTINCT key 
FROM ArrayTbl2 RAT1 
WHERE NOT EXISTS 
(SELECT * 
FROM ArrayTb1l2 AT2 
WHERE AT1.key = AT2.key 
AND AT2.val <> 1) 











av 


晶 是 ， 这 种 写法 是 有 问题 的 。 结 果 中 确实 包含 C， 但 是 也 包含 了 不 应 
该 出 现 的 A。 














注目 

关于 这 个 奇怪 的 设计 ，C.J.Date 
曾经 批评 道 : "SQL 中 的 EXISTS 
并 不 是 基于 三 值 逻 辑 的 正确 的 
EXISTS。” 详 情 请 参考 如 下 资料 : 
C.J.Date, EXISTS ijs not ‘Exists’, 
Relational Database Writings 
1985-1989，Addision-Wesley， 
1990。 
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-- 错误 的 结果 
Key 





为 什么 会 出 现 A 呢 ? 有 点 奇妙 ,我 们 需要 好 好 思考 一 下 。 因 为 A 是 “val 
字段 全 部 都 是 NULL” 的 实体 ， 所 以 子 查询 里 的 val <> 1 这 个 条 件 的 执行 
结果 是 unknown。 因 此 A 的 10 行 记 录 不 会 出 现在 子 查询 的 返回 结果 中 ， 
但 是 相反 ， 外 部 条 件 NoT EXISTs 会 把 A 的 记录 看 成 true。 我 们 分 析 一 
下 具体 的 步骤 ， 像 下 面 这 样 。 








































































































-- 第 1 步 : 与 NULL 比较 
WHERE NOT EXISTS 
(SELECT * 
FROM ArrayTbl2 AT2 
WHERE AT1.key = AT2.key 
AND AT2.val <> NULL); 


-- 第 2 步 ; 与 NULL 的 比较 会 被 看 成 unknown 
WHERE NOT EXISTS 
(SELECT * 
FROM ArrayTbl2 AT2 
WHERE AT1.key = AT2.key 
AND unknown); 





-- 第 3 步 : 


省 





为 子 查询 不 返 





口 











数据 ， 所 以 NOT EXISTS 会 认为 A 是 true; 














这 是 由 SQL 的 缺陷 导致 的 问题 ， 我 们 在 1-3 节 中 论述 NoT IN 和 NoT 
EXISTS 的 兼容 性 时 也 曾 遇 到 过 。 在 条 件 为 false 或 unknown 时 ， 子 查询 
的 sELECT 都 会 返回 空 。 但 是 NOT EXISTS 不 区 分 这 两 种 情况 ， 都 会 统一 
按照 “没有 返回 数据 一 true” 来 处 理 。 也 就 是 说 SQL 采用 了 这 种 奇怪 的 
设计 : SQL 中 的 谓词 大 多 数 都 是 三 值 逻 辑 ， 唯 独 ExISTSs 谓词 是 二 值 逻辑 9。 
此 ， 为 了 得 到 正确 的 结果 ， 我 们 必须 在 子 查询 的 条 件 中 添加 val 为 


NULL 的 情况 。 























dH 































































































st 




















-- 正确 解法 

SELECL DTISTINCT keYy 
FROM ArTayTb12 Al 
WHERE NOT EXISTS 
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(SELECT * 
FROM ALTayTb12 A2 
WHERE Al.key = A2.key 


NND (A Val > OR A val Fo NOR) 


图 执行 结果 





为 了 满足 “val 不 是 NULL”， 我 们 在 查询 中 增加 了 相反 的 条 件 val 








IS NULL。 请 注意 条 件 连 接 符 用 的 是 OR 而 不 是 AND。 














到 这 里 这 个 问题 就 解决 了 ， 是 不 是 没有 表面 看 起 来 那么 简单 呢 ? 


























顺便 说 一 下 其 他 解法 , 即 可 以 使 用 ALL 谓词 或 者 HAVING 子 句 来 解决 。 









































先 看 一 下 使 用 ALL 谓词 的 解法 。 


CC 























-- 其 他 解法 1 : 使 用 ALL 谓词 
SELECT DISTINCT key 
FROM ArrayTbl2 Al 
WHERE 1 = ALL 
(SELECT val 
FROM ArrayTb1l2 A2 
WHERE Al.key = A2.key); 


























查询 条 件 是 ， 具 有 相同 key 的 所 有 行 的 val 字段 值 都 是 1。 对 于 实体 





C 来 说 ， 这 条 查询 语句 会 被 解析 成 1 = ALL(1, 1, 1, …,， 1)。 


使 用 HAVING 子 句 的 解法 如 下 。 




















其 他 解法 2 : 使 用 HAVING 子 名 
SELECT key 
EROM ArrayTb12 
GROUP BY Key 








HAVING SUM(CASE WHEN Val = 1 THEN 1 ELSE 0 END) = 10; 


























XxX 
和 应 该 是 10。 就 本 例 来 说 ， 写 成 SUM (val) 
能 够 人 








性 的 特征 函数 来 解答 了 。 
我 们 还 可 以 像 下 面 这 样 解答 。 









































这 个 解法 非常 简单 ， 就 不 用 多 解释 了 吧 ? 如 果 所 有 行 都 是 1， 加 起 来 


- 10 也 是 可 以 的 ， 但 是 为 了 
































简单 应 对 “全 是 9” 或 “全 是 A” 这样 的 需求 ， 我 们 使 用 了 更 具 普 裔 
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人 t 

















-- 其 他 解法 3 : 在 HAVING 子 句 中 使 用 极 值 函数 
SELECT key 
FROM ArrayTb12 
GROUP BY key 
HAVING MAX (val) a 
AND MIN(val) = 1; 



































我 们 在 1-10 节 中 也 使 用 过 这 个 技巧 ， 它 使 用 了 集合 的 一 个 性 质 : 当 集 
合 中 的 最 大 值 和 最 小 值 相等 时 ， 该 集合 中 只 有 一 个 元 素 〈 本 例 中 为 1)。 但 
是 需要 注意 这 种 解法 与 前 两 种 解法 不 同 ， 如 果 表 中 val 字段 只 有 1 和 
NULL 两 个 值 ， 那 么 值 为 NULL 的 行 也 会 被 选中 。 




















































































































练习 题 1-8-2 使 用 ALL 谓词 表达 全 称 量 化 
把 NOT EXISTS 改写 成 ALL 谓词 的 话 ， 就 不 需要 双重 否定 了 。 











-- 查找 已 经 完成 到 工程 1 的 项 目 : 使 用 ALL 谓词 解答 
SELECT * 
FROM Projects P1 
WHERE 'O' = ALL 

















(SELECT CASE WHEN step nbr <= 1 AND status = ' 完 成 ' THEN 'O'! 
WHEN step nbr > 1 AND status =' 等 待 ' THEN 'O' 
ELSE 'x' END 
FROM Projects P2 
WHERENDINDNON el poproneue 








图 执行 结 
Sreeceed See plo status 
CS300 0 完成 
CS300 于 完成 
CS300 到 2 等 
CS300 3 等 待 














这 里 解释 一 下 这 条 查询 语句 ， 如 果 对 满足 条 件 的 行 标记 “QO” 对 不 
满足 条 件 的 行 标记 “xX” 那么 我 们 要 查找 的 其 实 就 是 “所 有 行 都 被 标记 
了 O 〇 的 项 目 ” 这 也 是 特征 函数 的 一 种 应 用 。 这 种 解法 没有 使 用 双重 否定 句 ， 
使 用 的 是 肯定 句 ， 理 解 起 来 很 轻松 。 

这 条 查询 语句 有 一 个 好 处 是 查询 结果 中 还 包含 集合 的 具体 内 容 ， 但 是 
因为 需要 对 所 有 的 行 标记 〇 或 者 X, 所 以 性 能 没有 使 用 NOT EXISTS 时 好 。 
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练习 题 1-8-3 求 质数 
你 是 否 注意 到 了 质数 的 定义 其 实 是 一 个 全 称 量化 语句 呢 ? “不 能 被 1 
和 它 自身 以 外 的 所 有 自然 数 整除 ”一 一 换 而 言 之 就 是 “除了 1 和 它 自身 以 
不 存在 能 整除 它 的 自然 数 ” 理解 这 一 点 后 ， 我 们 需要 做 的 就 只 是 使 用 
NOT EXISTS 将 条 件 直接 翻译 成 SQL 语句 而 已 。 



















































































-- 解答 : 用 NOT EXISTS 表达 全 称 量化 
SELECT num AS prime 
FROM Numbers Dividend 
WHERE num > 1 
AND NOT EXISTS 
(SELECT * 
FROM Numbers Divisor 
WHERE Divisor.num <= Dividend.num / 2 -- 除了 自身 之 外 的 约 数 必定 小 于 等 于 自身 值 的 一 半 






































AND Divisor.num <> 1 -- 约 数 中 不 包含 1 
AND MOD (Dividend.num，Divisor.num) = 0) --“ 除 不 尽 ” 的 否定 条 件 是 “ 除 尽 ” 


ORDER BY prime; 


图 执行 结果 


9 
Sg 














结果 一 共有 25 行 。 首 先 ， 准 备 被 除数 〈dividend) 和 除数 (divisor) 
的 集合 。 因 为 约 数 不 包 含 自 身 ， 所 以 约 数 必定 小 于 等 于 自身 值 的 一 半 例 
如 找 100 的 约 数 时 ， 没 有 必要 从 51 以 上 的 数 中 找 )， 因 此 我 们 可 以 通过 
Divisor.num < 一 Dividend.num/2 这 样 的 条 件 缩小 查找 范围 。 此 外 ， 
为 连接 条 件 可 以 用 到 “num” 列 的 索引 ， 所 以 性 能 也 比较 好 。 

这 个 问题 还 有 其 他 几 种 解法 ， 有 兴趣 的 话 大 家 可 以 思考 一 下 。 
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3-1 习 


1-9 用 SQL 处 理 数列 


练习 题 1-9-1 求 所 有 的 缺失 编号 一 一 NOT EXISTS 和 外 连接 
使 用 NOT EXISTS 时 的 解法 和 使 用 NoT IN 时 的 解法 非常 相似 ， 所 以 


这 道 题 应 该 很 简单 。 




















--NOT EXISTS 版 本 
SELECT Sed 
FROM Sequence N 
WHERE seq BETWEEN 1 AND 12 
AND NOT EXISTS 
(SELECT * 
ER@MESeaqpos 
WHERE N.seq = S.seq ); 




















使 用 外 连接 的 解法 稍微 麻烦 一 些 。 这 里 使 用 的 主要 技巧 是 “两 张 表 进 
行 外 连接 时 表 SeqTbl 中 缺失 编号 的 行 会 出 现 NULL”， 然 后 通过 WHERE 子 
句 将 这 些 NULL 的 行 排除 掉 @。 


关于 这 个 技巧 ， 更 多 内 容 请 参考 
1-5 节 。 














SELECT N.sed 
EROM Sequence N LEFT OUTER JOIN SeqTbl S 
ONIN seq =S seg 
WHERE N.seq BETWEEN 1 AND 12 
AND S.seq IS NULL; 

















至 此 ， 我 们 凑 齐 了 4 种 进行 差 集运 算 的 方法 。 


1. 首选 方法 : EXCEPT 

2. 不 支持 EXCEPT 的 数据 库 也 能 使 用 ， 而 且 易 于 理解 的 方法 : NOT IN 
3. NoT IN 的 相似 方法 : NOT EXISTS 

4. 麻烦 的 方法 : 外 连接 














从 可 读 性 和 性 能 方面 来 看 ， 这 4 种 方法 都 有 哪些 有 缺点 呢 ? 首先 从 可 
读 性 方面 来 看 ， 就 是 上 面 的 顺序 。 不 管 怎么 看 ，EXCEPT 都 比 NOT EXISTS 
好 一 些 。 外 连接 本 身 就 不 能 拿 来 做 差 集运 算 ， 就 更 谈 不 上 可 读 性 了 。 

从 性 能 上 来 看 ， 最 好 的 显然 是 Nor EXISTS。 它 的 好 处 首先 是 不 需要 
排序 ， 其 次 是 连接 条 件 可 以 用 到 表 SeqTbl 中 “seq” 列 的 索引 。EXCEPT 需 
要 扫描 两 张 表 ， 而 且 还 会 排序 (不 过 使 用 ALL 可 选项 可 以 避免 排序 )。 



































































































































@ 292 





第 3 章 ”附录 





NOT IN 会 产生 临时 视图 ， 所 以 性 能 差 了 很 多 ， 而 且 当 表 SeqTbl 的 “seq” 
列 存在 NULL 时 结果 会 出 乎 意料 ， 这 也 是 一 个 明显 的 缺点 。 
而 外 连接 的 性 能 却 不 容 小 靓 。 它 同样 不 需要 排序 ， 连 接 条 件 可 以 用 到 

































































0 两 张 表 “seq” 列 的 索引 。 性 能 方面 基本 与 NOT EXISTS 差不多 强大 9。 
Joe Celko 在 《SQL 权威 指南 ( 第 、 二 9 
4 版 )》 的 22.3 节 "NOT EXISTS 在 使 用 外 连接 时 ， 必 须 满足 一 个 前 提 条 件 ， 表 Sequence 的 “seq 
和 OUTER JOIN” 中 说 过 ， 很 多 时 






































候 信 用 外 连接 比 信用 wor ， 列 不 能 存在 NULL。 否 则 在 wHERE 子 句 中 排除 NULL 时 ， 我 们 无 法 区 分 这 
EXISTs 性 能 更 好 。 个 NULL 是 原本 就 存在 的 NULL, 还 是 由 连接 操作 产生 的 NULL。 本 例 中 ,“seq” 
列 是 主键 ， 因 而 能 保证 不 为 NULL， 但 是 在 使 用 非 主 键 列 进行 连接 时 一 定 


要 特别 注意 不 能 存在 NULL。 




































































练习 题 1-9-2 求 序列 一 一 面向 集合 的 思想 

正文 中 也 曾 多 次 提 到 ， 使 用 SQL 描述 全 称 量化 的 方法 有 两 个 ， 即 使 
有 NOT EXISTS 或 者 使 用 HAVING。 从 前 者 改写 为 后 者 时 ， 只 需要 将 NOT 
EXISTS 的 双重 否定 直接 改 为 肯定 句 就 行 了 ， 非 常 简单 。 下 面 是 改写 后 的 
代码 。 
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SELECT Sl.seat AS start seat, ' 未 预 i' ，S2.seat RS end seat 
FROM Seats S1, Seats S52, Seats S3 
WEERRES2RSeSEEE SIseae re (headente 
AND S3.seat BETWEEN S1.seat AND S2.seat 
GROUBYMBEY ST seat SS2 seat 
HAVING COUNT(*) = SUM(CASE WHEN S3.status = ' 未 预订 ' THEN 1 ELSE 0 END); 


图 执行 结果 
SEanreESeai ESeat 
230 5 
7 9 
8 ~ 10 
9 ~ J 

















请 注意 HAVING 子 句 的 条 件 。 使 用 NOT EXISTS 时 的 条 件 是 S3 .status 
<> ' 未 预订 '， 这 里 改 成 了 s3.status =' 未 预订 '。 
当 坐 位 有 换 排 时 ， 只 需要 增加 casE 表达 式 的 条 件 就 可 以 了 。 
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-- 坐位 有 换 排 时 
SELECT S1.seat AS start_seat，! 未 预订 ' ，S2.seat AS end seat 
EROMESeaeS2ES Seats2 52 Seats2 S53 

WHERE MS2.Seat = Sl1.seat neaqEcna ET) 

AND S3.seat BETWEEN Sl1.seat AND S2.seat 

GROUP BY Sl.seat, S2.seat 

HAVING COUNT(*) = SUM(CASE WHEN S3.status = ' 未 预订 ， 
AND S3.row id = S1.row id THEN 1 ELSE 0 END) 








Startaseat oq engyseae 
也 ~ 已 
~ 0) 
I ~ 由 


不 要 忘 了 把 s3.row ia <> S1.row id 这 个 否定 句 改 成 8S3.row_id 
= S1.row_id 这 样 的 肯定 句 。 


练习 题 1-9-3 求 所 有 的 序列 一 一 面向 集合 的 思想 

在 通过 非 等 值 连接 生成 起 点 和 终点 的 组 合 之 前 ， 实 现 方法 与 使 用 
EXISTS 相同 。 本 题 中 s3 .seat 需要 满足 的 条 件 分 为 3 种 情况 ， 因 此 特征 
函数 中 使 用 了 3 个 WHEN 子 句 来 描述 


















































SELECT S1,.seat AS start seat, 
S28seat Mas endqseat, 
Sovaeat seat PI AS eatrent 
FROM Seats3 SL1, Seats3 82, Seats3 83 
WHERE S1.seat <= S2.seat -- 第 一 步 ; 生成 起 点 和 终点 的 组 合 
AND S3.seat BETWEEN S1.Seat - 1 AND S2.seat + 1 
GROUP BY S1.seat, 52,seat 
HAVING COUNT(*) = SUM(CASE WHEN  S3.seat BETWEEN S1.seat AND S2.seat 
AND 83.status = ! 空 ' THEN 1 -- 条件 1 
WHEN S83.seat = S82.seat + 1 AND S3.status = ' 占 ' THEN 1 -- 条 件 2 
WHEN S3.seat = S1.seat - 1 AND 83.status = ' 占 ' THEN 1 -- 条 件 3 
ELSE 0 END); 

















start seat end seat seat cnt 




















本 例 也 只 是 将 条 件 1 一 条 件 3 用 肯定 句 的 方式 描述 一 下 而 已 ， 但 是 比 
起 双重 否定 好 理解 多 了 。 


























3 1-10 HAVING 子 句 又 回来 了 


练习 题 1-10-1 单 重 集合 与 多 重 集合 的 一 般 化 

COUNT 函数 的 参数 只 能 是 一 列 。 虽 然 这 是 常识 ， 但 是 见 到 这 个 题 ， 还 
是 有 人 不 由 自主 地 写成 COUNT (material，orglang) 吧 ? 真 遗憾 ! 这 样 写 
是 不 对 的 。 

不 过 不 必 难 过 。 虽 然 参数 只 能 是 一 列 ， 我 们 却 可 以 将 多 列 拼 凑 成 一 列 
作为 参数 传道。 解答 如 下 所 示 。 












































-- 选择 ( 材料 ， 原 产 

SELECT center 
FROM Materials2 

CROUDEBYE eee 

HAVING COUNT (material | | orgland) <> COUNT(DISTINCT material || orgland) ; 


山 








) 组 合 有 重复 的 生产 地 











国 执行 结果 





如 果 想 要 拼凑 的 字段 不 是 字符 串 类 型 ， 可 以 先 转换 成 字符 串 类 型 再 拼 
竣 。 这 种 解法 怎么 说 呢 ， 多 少 有 点 欺骗 数据 库 的 感觉 …… 所 以 说 ， 还 是 不 
要 多 想 了 。 需 要 扩展 成 三 个 字段 以 上 时 ， 同 样 地 拼凑 起 来 就 可 以 了 。 

贰 便 说 一 下 ， 也 许 有 人 会 考虑 下 面 这 种 解法 。 但 是 很 遗憾 ， 这 么 做 是 



























































普 的 。 





-- 选择 ( 材料 ， 原 产 国 ) 组 合 有 
SELECT center 
FROM Materials2 
CROUREERBNEECEmEeS 
HAVING COUNT (material) <> COUNT (DISTINCT material) 
AND COUNT (orgland) <> COUNT (DISTINCT orgland) ; 


冒 











E 复 的 生产 地 : 错误 的 查询 语句 
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图 执行 结果 


center 















































为 什么 名 古 屋 也 会 出 现在 结果 里 呢 ? 这 是 因为 ,对 于 名 古 屋 , 材 料 “ 钢 ” 


和 [1 钛 29 

















重复 ， 原 产 国 “智利 ”重复 ， 因 此 它 满足 了 这 条 得 询 语 句 的 条 件 。 









































在 使 用 多 个 字段 查找 集合 中 的 重复 元 素 时 ， 不 应 该 对 各 个 字段 分 别 进行 条 











件 匹 配 ， 























而 应 该 将 它们 “整个 地 作为 一 个 字段 ”进行 条 件 匹 配 。 这 是 操作 








关系 数据 库 中 的 表 时 的 重要 思考 方式 ， 请 一 定 牢记 。 


练习 题 1-10-2 多 个 条 件 的 特征 函数 


应 该 使 用 “学 号 ”作为 聚合 键 这 一 点 很 好 理解 ， 


























昌 是 问题 是 特征 函数 








i 








应 该 怎么 写 。 这 道 例 题 需要 根据 课程 是 “语文 ”还 是 “数学 ”改变 条 件 ， 
因此 可 以 像 下 面 这 样 解答 。 


SELECT 
FROM 
WHERE 
GROUP 
HAVING 

















student id 

meskSeoses 

subject IN (数学 ,语文 1 

得 sEudenEgsna 

SUM (CASE WHEN subject = ' 数 学 ' AND score >= 80 THEN 1 
WHEN subject = ' 语 文 ' AND score >= 50 THEN 1 
EESENONENDE 2 





student id 


















































因为 不 需要 处 理 数学 和 语文 以 外 的 课程 ， 所 以 这 里 先 在 WHERE 子 句 
中 进行 了 排除 。 因 此 生成 的 子 集 最 多 只 包含 两 个 元 素 。 
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Joe Celko,《SQL 权威 指南 (第 4 版 )》( 人 民 邮 电 出 版 社 ，2013 年 ) 
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由 此 可 见 它 面向 的 群体 是 中 级 到 高 级 水 平 的 人 。 英 文 原版 最 新 是 第 5 版 ， 
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Andrew Cumming、Gordon Russell,《SQL Hacks》( 清华 大 学 出 版 社 ， 
2008 年 ) 

这 本 书 为 已 经 灵活 掌握 SQL 的 工程 师 讲 解 了 很 多 进一步 提升 能 力 的 
实战 技巧 。 这 本 书 的 定位 和 《SQL 解 惑 》 有 点 像 〈 事 实 上 ， 两 本 书 中 有 很 
多 相似 的 问题 ， 此 外 这 本 书 的 作者 们 还 在 书 中 提 到 了 Joe Celko)。 书 中 介 
绍 了 很 多 Web 开发 的 案例 研究 ， 主 要 针对 MySQL 数据 库 进行 讲解 。 

乍 者 们 对 标准 SQL 以 及 SQL 的 逻辑 有 着 深刻 的 理解 ， 书 中 作者 们 的 
独到 见解 随处 可 见 〈 而 且 作 者 们 还 大 胆 地 统一 采用 逗号 风格 )。 虽 然 这 本 
书 有 点 星 涩 难 懂 ， 但 是 很 值得 一 读 。 





















































































































































Joe Celko,《SQL 编程 风格 》( 人 民 邮 电 出 版 社 ，2008 年 ) 

这 本 书 没有 介绍 具体 的 技巧 ， 而 是 介绍 了 设计 相关 的 知识 ， 以 及 编码 
风格 。 这 本 书 相当 于 数据 库 领 域 的 《编程 格调 江 人民 邮 电 出 版 社 ,2015 年 )， 
也 是 一 本 赞誉 颇 多 的 名 车。 

书 中 涉及 表 和 字段 的 命名 规则 、 编 码 风格 、 不 好 的 表 设计 案例 、 视 图 
和 存储 过 程 的 用 法 以 及 集合 论 的 思考 等 丰富 的 内 容 ， 是 一 本 面面俱到 的 好 
书 。 特 别 是 第 6 章 “ 编 码 选 择 ” 和 第 10 章 “ 以 SQL 的 方式 思考 ”， 建 议 
所 有 的 数据 库 工 程 师 都 读 一 下 。 

想必 大 家 也 猜 到 了 ， 本 书 1-12 节 和 2-6 节 受 了 这 本 书 很 多 影响 。 














































































































Joe Celko, Joe Celko’s Trees and Hierarchies in SQL for Smarties, 
Second Edition ( Morgan Kaufmann，2012 年 ) 

近年 来 针对 关系 数据 库 和 SQL 的 批评 中 ， 最 为 尖锐 的 是 “不 能 很 好 
地 操作 树 形 结构 的 数据 或 者 层级 结构 的 数据 2 也许 是 因为 它们 被 批评 的 
太 多 了 ， 所 以 最 近 很 多 数据 库 厂商 都 在 有 意识 地 改进 这 一 点 ， 努 力 尝试 着 
开发 了 各 自 的 产品 。 
优化 产品 是 数据 库 厂商 的 工作 ， 那 么 作为 一 线 的 工程 师 ， 我 们 又 该 如 
何 使 用 SQL 操作 树 形 结构 的 数据 呢 ? 为 了 回答 这 个 问题 ， 本 书 全 文 都 在 
介绍 各 种 使 用 SQL 操作 树 形 结构 数据 的 方法 与 技巧 ， 相 当 厉 害 。 当 然 ， 
写 这 本 书 的 Joe Celko 也 很 厉害 ,但 是 这 样 深奥 的 书 在 美国 都 有 人 读 ， 这 
也 说 明美 国 数据 库 领 域 的 发 展 很 厉害 。 
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第 3 章 ”附录 








是 最 精彩 的 内 容 是 把 节 











书 中 详细 介绍 了 邻接 列表 模型 、 
点 当 作 集合 来 处 理 





路 径 
























































举 模型 等 标准 的 层级 结构 ， 但 
的 章节 “Nested Sets Model”( 符 
套子 集 模 型 )。 有 用 的 技术 书 很 多 ， 但 让 人 读 后 为 之 感动 的 技术 书 并 不 多 。 

这 本 书 还 没有 中 文 译本 ， 但 《SQL 权威 指南 〈 第 4 版 )》 第 36 章 和 





第 37 章 对 其 作 过 一 些 介绍 。 大 家 也 可 以 参考 笔者 的 网 站 〈 内 容 是 月 
写 的 ， 地 址 为 http://www.geocities.jp/mickindex/database/db_tree_ns.html)。 




















日文 


C.J.Date,《 深 度 探索 关系 数据 库 : 


2007 年 ) 





实践 者 的 关系 理论 》( 电子 工业 出 版 社 ， 


这 本 书 是 当今 数据 库 领 域 的 权威 C.J.Date 为 一 线 数据 库 工程 师 写 的 介 





绍 关系 数据 库 模 型 的 教材 ， 非 常 注重 理 





























以 上 水 平 的 数据 库 工程 师 。 











不 推荐 三 值 逻辑 的 理由 是 什么 ? 为 什么 不 允许 


























都 没有 的 表 有 什么 用 ? 为 什么 范式 很 


现 吗 ? 








作者 对 像 上 于 
讲解 。 











这样 与 实际 工作 有 关 的 理论 问题 作 了 严谨 但 





论 和 实践 的 结合 ， 











目标 读者 是 中 级 

















E 复 行 存在 ? 一 个 字段 
EE 要 ? 典 套 关系 〈 二 阶 关系 ) 可 能 实 


通俗 易 懂 的 


Robert Ashenhurst、Susan Graham,《ACM 图 灵 奖 演讲 集 》( 电子 工业 


出 版 社 ，2005 年 ) 














这 本 书 里 收录 了 本 














中 多 次 引用 的 Codd 的 演讲 文 《 关 系数 




















产 力 的 实 | 








基础 》 这 本 书 石 


着 读 一 下 。Codd 的 演讲 非常 明快 ， 对 于 一 线 工程 师 来 说 也 非常 容易 理解 。 








居 库 : 生 
E 书 店 可 能 不 太 容 易 找到 ， 如 果 有 机 会 可 以 试 


户 田 山 和 久 ,《 逻 辑 学 的 创立 》( 原 书 名 | 论 理 学 在 吉 《 吾 上 尚 无 中 文 版 ) 


这 是 一 本 学 习 谓词 逻辑 的 最 佳 入 门 书 , 而 
因此 完全 没有 逮 辑 学 知 
很 适合 自学 者 ， 其 难能可贵 的 地 方 在 
然 是 入 门 书 却 也 适当 介绍 了 三 值 逻 辑 相关 的 知 


还 是 逻辑 学 的 入 门 书 ， 
此 外 ， 这 本 书 习 题 非常 






































丰富 ， 


识 的 人 读 起 来 也 没有 




















不 仅 是 谓词 逻辑 的 入 门 书 ， 


问题 。 
号 








口 





Mo 
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远 山 启 ,《 无 限 与 连续 》( 原 书 名 「 无 限 之 连 统 」j， 尚 无 中 文 版 ) 

要 想 学 习 谓词 逻辑 , 那么 读 上 面 那 本 户 田 山 和 久 的 书 就 可 以 了 。 这 里 ， 

笔者 推荐 一 本 集合 论 的 入 门 书 。 这 本 书 出 版 于 1952 年 ， 已 经 有 半 个 多 世 
纪 的 历史 ,但 是 就 集合 论 这 个 主题 而 言 ， 这 本 书 仍然 是 入 门 书 中 永远 的 畅 
销 书 。 
书 中 结合 易于 理解 的 事例 介绍 了 一 对 一 映射 和 集合 代数 等 基础 概念 ， 
并 非常 生动 地 讲解 了 群 和 单位 元 等 与 SQL 关系 密切 的 概念 。 这 本 书 是 岩 
波 新 书 ,属于 岩 波 书 店 出 版 的 便携 书 ， 所 以 价格 比较 实惠 ， 而 且 便 于 携带 。 
如 果 大 家 在 读 完 笔者 的 这 本 书后 希望 进一步 了 解 集合 论 这 个 充满 魅力 的 世 
界 ， 那 么 笔者 强烈 推荐 远 山 启 的 这 本 书 。 































































































































































































原 书 名 为 「 root 办 5 / 作 DXY 了 七 一 
学 」 尚 无 中 文 版 。 一 一 编者 注 








后 记 











请 允许 笔者 ; 





新 手 程序 员 的 眼 里 ， 
是 那么 地 枯燥 无 味 。 
但 是 不 久之 后 ， 









































与 丰富 





普 人 
不/ 


一 个 发 生 在 笔者 身上 的 故 
在 刚 接触 到 关系 数据 库 的 时 人 








il 
BS 


hl 


吴 ， 笔 者 对 它 的 第 一 印象 并 不 是 很 好 。 在 
的 网 络 和 Web 世界 相 比 ， 数 据 库 看 起 来 











想必 很 多 人 都 跟 笔者 有 一 样 的 想法 吧 ? 


笔者 遇 到 了 一 本 
本 书 不 是 关于 数据 库 的 ,因此 笔者 没有 将 大 
但 这 里 笔者 想 把 它 介 绍 给 大 家 。 
这 本 书 是 高 野 丰 先 4 





讲述 了 UNIX 系统 管理 员 的 心 





这 本 书 的 哪些 地 方 令 从 事 不 

















刻 的 原理 ”。 
大 胆 的 话 的 正确 性 。 


























4 旦 





可 



































E 所 著 的 《root 寄语 》@ (ASCII，1991 年 )。 从 书 











就 可 以 看 出 ， 它 不 是 一 本 关于 数据 库 的 书 。 这 本 书 | 














， 它 改变 了 我 对 数据 库 的 认识 。 这 
列 在 本 书 3-2 市 “参考 文献 ”里 





























] 通 俗 易 懂 的 日 常 语 
}， 是 一 本 源 于 实践 的 散文 集 。 那 么 完 苋 
同 领域 工作 的 笔者 深 受 启发 呢 ? 其 实 就 是 这 么 











话 : 在 这 个 世界 上 ， 无 论 看 起 来 多 么 普通 的 事物 ， 
高 野 先生 的 这 本 书 借助 UNIX 这 一 主 




















背后 总 是 隐藏 着 深 


题 ， 为 我 们 诠释 了 这 人 名 





在 读 到 山形 洗 生 先生 为 这 本 书写 的 评论 之 后 ， 笔 者 受 
到 了 更 大 的 刺激 。 下 面 是 评论 的 一 部 分 。 


只 要 读 一 遍 这 本 书 ， 你 就 会 意识 到 之 前 的 自己 是 多 么 肤浅 。 如 果 你 兽 


经 懒惰 地 认为 有 趣 的 东西 总 会 从 天 而 降 ， 习 
为 自己 的 这 种 想法 感到 郑 
人 注意 不 到 的 乐趣 。 有 些 是 在 需要 学 习 工 人 











bp 么 读 完 这 本 书 之 后 你 会 深 深 地 
耻 。 作 者 高 野 先 生 从 平淡 无 奇 的 生活 中 发 现 了 别 
中 必 备 的 技能 时 发 现 的 ， 


有 些 


是 在 出 差 或 者 上 班 的 途中 发 现 的。 我 们 并 不 需要 等 待 特殊 的 时 机 ， 因 为 有 











趣 的 东西 其 实 无 处 不 在 。 这 个 世界 没有 一 天 是 无 聊 的 ， 只 不 过 是 你 








镇 惰 已 


久 的 感官 无 法 发 现 眼 前 事物 的 乐趣 而 已 。( 摘自 “发 现 乐趣 的 智慧 之 书 ”， 
网 址 为 http://cruel.org/other/ditodias.html。 ) 





“这 个 世界 没有 




















痛 着 笔者 的 心 。 











眼前 事物 的 乐趣 而 已 ” 这 人 句 严厉 的 计 














天 是 无 聊 的 ， 只 不 过 是 你 懒惰 已 久 的 感官 无 法 发 现 
| 斥 ， 从 笔者 读 到 的 那天 起 就 一 直 束 


= 





后 记 
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读 完 这 本 书 之 后 ， 笔 者 开始 以 谦虚 的 态度 重新 审视 了 数据 库 。 如 果 笔 
者 感到 这 个 世界 缺乏 乐趣 ， 那 不 是 世界 出 了 问题 ， 而 是 因为 笔者 还 不 未 能 
发 现 其 中 的 乐趣 。 这 个 世界 充满 了 笔者 未 曾 了 解 的 各 种 可 能 。 在 改变 态度 
之 后 ， 笔 者 朝 着 数据 库 世 界 的 深 处 展开 了 挖掘 。 

想必 大 家 已 经 明白 了 ， 本 书 其 实 就 是 将 高 野 先 生 通 过 UNIX 所 做 的 事 
情 ， 在 数据 库 领 域 进行 了 答 试 。 当 然 ， 因 为 笔者 水 平 有 限 ， 未 必 能 够 挖掘 
出 数据 库 和 SQL 的 全 部 乐趣 。 但 是 只 要 能 让 大 家 感受 到 数据 库 的 世界 并 
非 荒野 一 样 枯燥 无 味 ， 而 是 充满 了 各 种 可 能 ， 那 么 笔者 写 这 本 书 的 目的 就 
达到 了 。 因 此 , 从 这 一 点 来 说 , 这 本 书 可 以 看 作 笔者 给 各 位 读者 的 “寄语 ”。 
接 下 来 轮 到 大 家 去 发 现世 界 的 乐趣 了 。 当 然 这 里 说 的 “世界 ”并 不 限于 数 
据 库 的 世界 ， 大 家 各 自从 事 的 领域 都 可 以 。 因 为 无 论 什么 领域 ， 必 定 有 相 
通 之 处 。 

好 了 ， 火 炬 已 经 传递 给 大 家 了 。 加 油 吧 ! 
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